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本 书 由 “ 行 行 ?整理 ， 如 果 你 不 知道 读 什 么 书 或 者 想 获 得 更 多 免费 电子 
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如 果 你 不 知道 读 什 么 书 ， 


就 关注 这 个 微 信 号 。 





微 信 公众 号 名 称 ， 幸福 的 味道 
加 小 编 微 信 一 起 读书 


小 编 微 信号 : 2338856113 


【幸福 的 味道 】 忆 提供 200 个 不 同类 型 的 书 单 


1、 


2、 


3、 


历届 节 盾 文学 交 获 奖 作 品 
每 年 豆 汰 ， 当 当 ， 亚 蕊 进 年 度 图 书 销售 排行 榜 


25 岁 前 一 定 要 读 的 25 本 书 





、 有 生 之 年 ， 你 一 定 要 看 的 25 部 外 国 纯 文学 名 著 
、 有 生 之 年 ， 你 一 定 要 看 的 20 部 中 国 现 当 代 名 著 
、 美国 亚马逊 编辑 推荐 的 一 生 必 读书 单 100 本 

、 30 个 领域 30 本 不 容错 过 的 入 门 书 





8、 这 20 本 书 ， 是 各 领域 的 襄 峰 之 作 

9、 这 7 本 书 ， 教 你 如 何 高 效 读书 

10、 80 万 书 虫 力 荐 的 “给 五 星 都 不 够 ”的 30 本 书 

关注 “幸福 的 味道 ” 微 信 公众 号 ， 即 可 查看 对 应 书 单 和 得 到 电子 书 
也 可 以 在 我 的 网 站 ( 周 读 ) www.ireadweek.com 自行 下 载 
备用 微 信 公众 号 : 一 种 思路 





《深入 浅 出 数据 分 析 》 以 类 似 “ 章 回 小 说 ”的 活泼 形式 ， 生 动 地 回访 
者 展现 优秀 的 数据 分 析 人 员 应 知 应 会 的 技术 : 数据 分 析 基 本 步骤 、 实 验 
方法 、 最 优化 方法 、 假 设 检验 方法 、 贝 叶 斯 统计 方法 、 主 观 概率 法 、 局 
发 法 、 直 方 图 法 、 回 归 法 、 误 差 处 理 、 相 关 数 据 库 、 数 据 整理 技巧 ， 正 
文 之 后 ， 意 犹 未 尽 地 以 三 篇 附录 介绍 数据 分 析 十 大 要 务 、R 工 具 及 
0 44 
桥梁 。 


本 书 构 思 跌 宕 起 伏 ， 行 文 妙趣 横生 ， 无 论 读者 是 职场 老手 ， 还 是 业 
界 新 人 ; 无 论 是 字 贡 句 酌 ， 还 是 信 手 翻阅 ， 都 能 跟 独 文字 在 职场 中 走 上 
儿 回 ， 体 味 数据 分 析 领 域 的 乐趣 与 挑战 。 


978-0-596-15393-9 Head First Date Analysis © 2009 by O'Reilly 
Media, Inc. Simplified Chinese edition, jointly published by O'Reilly 
Media , Inc. and Publishing House of Electronics Industry, 2010. 
Authorized translation of the English edition, 2009 O'Reilly Media, Inc., 
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“是 时 候 写 一 本 通俗 易 懂 、 内 容 全 面 的 数据 分 析 知 识 指南 了 ， 好 让 
概念 的 学 习 变 得 既 简 单 久 有趣。 借助 各 种 成 熟 的 技术 和 免费 的 工具 ， 数 
i 0 概念 对 理论 有 用 ， 对 实践 
更 有 用 。” 


一 Anthony Rose，Support Analytics 公 司 总 裁 


“《 深 入 浅 出 数据 分 析 》 写 得 漂 涡 ， 该 者 可 以 学 到 分 析 现 实 问题 的 
系统 性 方法 。 从 卖 咖啡 到 开 橡 皮 玩具 三 ， 再 到 要 求 老 板 涨 工资 ， 此 书 告 
诉 我 们 如 何 发 现 和 解密 数据 在 日 疝 生 活 中 的 强大 作用 。 从 图 形 图 表 到 
Excel 和 R 计 算 机 程序 ，《 深 入 浅 出 数据 分 析 》 想 尽 办 法 让 各 个 层次 的 读 
者 都 体会 到 系统 化 的 数据 分 析 对 于 制定 大 大 小 小 的 决策 的 强大 作用 。” 


Eric Heilman， 乔 冶 敦 预备 学 校 统 计 学 教师 


“被 堆积 如 山 的 数据 压 得 跨 不 过 气 了 ? 让 Michael Milton 做 你 的 老师 
吧 ， 在 办 公 工 具 里 添上 数据 分 析 工 具 ， 抢 占 技术 先 机 。 《深入 浅 出 数据 
分 析 》 将 告诉 你 如 何 将 原始 数据 转变 成 真正 的 知识 。 别 再 抽签 算 卦 了 

几 套 软件 ， 一 本 《深入 浅 出 数据 分 析 》， 就 能 让 你 做 出 正确 的 决 
策 。” 














Bill Mietelski， 软 件 工 程 师 





深入 浅 出 系列 图 书 美誉 


“Kathy 和 Bert 合 著 的 《深入 浅 出 Java》 (Head First Java ) 让 白 纸 黑 
字 摇 时 一 变 ， 成 为 恋 者 领略 过 的 最 接近 GUI 的 作品 。 作 者 以 幽默 、 新 潮 
的 风格 ， 让 学 习 Java 成 为 不 断奶 问 ' 他 们 接 下 来 打算 怎么 办 呢 ? “的 愉快 
体验 。” 


Warren Keuffel，《 软 件 开发 杂志 》 


“《 深 入 浅 出 Java》 (Head First Java ) 引人入胜 的 风格 会 把 一 无 所 
知 的 你 变 成 斗志 昂扬 的 Java 战 证， 不仅 如 此 ， 书 中 还 收入 了 大 量 实 用 事 
例 ， 这 样 的 实用 事例 在 其 他 文章 中 只 会 留 给 如 怖 的 ‘读者 练习 *。 此 书 豁 
智 、 幽 默 、 新 潮 而 实用 能 在 讲授 对 象 序列 化 和 网 络 加 载 协议 知识 的 
同时 有 这 样 的 主张 并 坚持 做 到 的 书籍 并 不 多 见 。 


Dan Russell 博 士 ，IBM Almaden 研 究 中 心 用 户 科 学 和 用 户 体 
验 研 究 室 主任 〈 兼 斯 坦 福 大 学 人 工 智能 教师 ) 


“此 书 明快 ， 风 趣 ， 玩 世 不 蕉 ， 引 人 入 胜 。 细 心 读 -一 你 可 能 确实 
能 学 到 东西 ! ” 


Ken Arnold， 曾 任 Sun Microsystems 高 级 工程 师 ， 与 Java 创 始 
人 James Gosling 合 车 《Java 编 程 语 言 》 (The Java Programming 
Language ) 


“如 醒 柄 灌顶， 脑海 中 堆积 如 山 的 书本 知识 一 下 子 消化 了 。” 

Ward Cunningham， 维 基 百 科 发 明 人 ，Hillside Group 创 并 人 
“ 正 合 我 们 这 些 喜 欢 研究 技术 、 生 活 随 意 的 程序 员 的 口味 ， 实 用 开 

发 策略 的 称 手 参考 书 一 一 让 我 的 大 脑 尽 情 运 转 ， 无 须 硬 着 头皮 应 付 迁 腐 

乏味 的 专家 说 教 。” 


Travis ”Kalanick，Scour 网 站 和 Red Swoosh 网 站 创始 人 ， 获 





























麻 省 理工 学 院 TR100“ 《技术 回顾 》 志 界 百名 青年 创新 学 者 ) 称号 
“有 的 书 是 用 来 买 的 ， 有 的 书 是 用 来 藏 鸭 ， 还 有 的 书 是 用 来 摆 在 案 
头 的 。 感 谢 OReily 和 Head First 的 员工 ， 他 们 出 了 最 高 等 级 的 书 一 一 深 
入 浅 出 (Head First ) 系列 ， 让 人 爱不释手 、 百 读 不 大 。《 深 入 浅 出 
SQL》 (Head First SQL ) 是 我 最 心爱 的 书 ， 都 快 翻 烂 了 。” 
Bill Sawyer，Oracle 公 司 ATG 诬 程 经 理 


“本 书 的 透彻 、 幽 默 和 瞧 智 令 人 钦佩 ， 连 编程 门外汉 也 能 借助 这 样 
的 书 想 出 办 法 解决 问题 。” 
Cory Doctorow， 博 客 网 站 BoingBoing 扎 稿 人 合作 编辑 ， 滥 有 


《魔法 王国 的 故事 》 (Down and Out in the Magic Kingdom ) 及 《人 来 
人 往 的 城市 》 (Someone Comes to Town, Someone Leaves Town ) 


“昨天 收 到 书 束 开 始 读 .……... 一 读 就 停 不 下 来 了 了 人， 真是 酪 姓 了 。 书 很 
有 趣 ， 内 容 扎 实 ， 切 中 肯 蛇 。 印 象 太 好 了 。” 


Erich Gamma，IBM 杰出 工程 师 ，《 设 计 模 式 》 (Design 
Patterns ) 合 蔷 者 


“我 读 过 的 最 有 趣 、 最 高 明 的 软件 设计 图 书 之 一 。” 
Aaron LaBerge，ESPN.com 技 术 副 主席 


“过 去 要 犯 着 错误 摸索 前 进 的 漫长 学 习 过 程 ， 现 在 干净 利沙 地 浓缩 
在 一 本 迷人 的 平装 书 中 。” 






































Mike Davidson，Newsvine，Inc. 首席 执行 官 


“每 一 章 部 凝聚 着 优雅 的 设计 ， 每 一 条 原理 无 不 饱含 实用 价值 与 内 














Ken Goldstein， 迪 斯 尼 在 线 执 行 副 总 裁 


“我 sx 《深入 浅 出 HTML + CSS & XHTML》 (Head First HTML with 
CSS & XHTML ) 。 它 以 “有趣 ’ 的 模式 ， 将 全 部 知识 倾 赛 相 授 。” 


Sally Applin，UI 设 计 师 、 艺 术 家 


“ 通 闻 ， 阅 读 设 计 模 式 方面 的 书 或 文章 时 ， 我 都 得 头 巷 荣 锥 刺 股 才 
能 保证 注意 力 集 中 。 这 本 书 却 是 个 例外 ， 听 起 来 可 能 有 点 怪 ， 这 本 书 让 
学 习 设计 模式 变 得 号 然 有 趣 。 


“ 当 其 他 设计 模式 方面 的 书籍 还 在 教 读者 呀 呀 学 语 时 ， 这 本 书 却 已 
在 踏 浪 高 歌 加 油 ， 兄 弟 ! ” 

















Eric Wuehler 


“我 实 实在 在 爱 这 本 书 。 不 上 蚂 大 家 说 ， 我 当 大 老 疲 的 面 杀 了 这 本 








Satish Kumar 


O'Reilly 其 他 相关 图 书 

Analyzing Business Data with Excel 

Excel Scientific and Engineering Cookbook 
Access Data Analysis Cookbook 
O'Reilly 深 入 浅 出 系列 其 他 图 书 

Head First Java 

Head First Object-Oriented Analysis and Design (OOASD ) 
Head First HTML with CSS and XHTML 
Head First Design Patterns 

Head First Servlets and JSP 

Head First EJB 

Head First PMP 

Head First SQL 

Head First Software Development 

Head First JavaScript 

Head First Ajax 

Head First Physics 

Head First Statistics 

Head First Rails 


Head First PHP & MySQL 


Head First Algebra 
Head First Web Design 


Head First Networking 


谨 将 此 书 献 给 我 的 祖母 Jane Reese Gibbs 


作者 简介 





Michaet Milton ) 


Michael ”Milton 将 自己 的 大 半 职 业 生 涯 献 给 了 非 鳃 利 机 构 ， 帮 助 这 
些 机 构 解 析 和 处 理 从 赞助 人 那里 收集 来 的 数据 ， 提 高 融资 能 力 。 


Michael Milton 拥 有 新 佛罗里达 学 院 哲学 学 位 及 耶鲁 大 学 宗教 伦理 








学 学 位 。 多 年 来 ， 他 博览 群 蔬 ， 这 些 书籍 虽 字 字 珠 现 ， 却 枯燥 乏味 ， 莫 
然 抬 首 ， 深 入 浅 出 (Head First ) 系列 图 书 让 他 眼前 一 亮 ， 他 欣然 抓 住 
机 会 ， 写 出 了 这 本 同样 字 字 珠 现 ， 羔 振奋 人 心 的 书 。 


走出 图 书馆 和 书店 ， 人 们 会 看 到 他 在 跑步 、 摄 影 ， 以 及 杀手 酿 制 啤 


详 痢 序 








2010 年 2 月 ， 春 节 将 至 ， 我 癌 博 文 视 点 的 茶 个 邮箱 寄 出 了 一 封 请 求 
参加 翻译 任何 一 本 图 书 的 邮件 。 很 快 ， 有 人 回信 了 ， 内 容 简单 明了 : 请 
下 载 并 试 译 第 1 章 1 一 17 页 内 容 。 落 亚 是 博文 视点 编辑 徐 定 翔 。 于 古 我 试 
译 ， 寄 出 ， 然 后 等 待 。 春 节 过 去 了 ， 一 切 都 从 节日 的 情 懒 中 苏醒 过 来 
一 一 包括 我 的 试 译 结 果 一 一 它 来 了 : 通过 。 合 作 事项 很 快 商定 ， 工 作 就 
这 样 开始 了 。 


如 今 已 是 2010 年 8 月 ， 稿 件 已 如 期 交付 ， 按 照 出 版 惯例 ， 我 可 以 占 
用 一 点 篇 幅 ， 谈 谈 这 本 书 。 


正如 O'Reilly 出 版 社 的 Head First 系 列 的 其 他 图 书 那样 ， 本 书 在 语言 
组 织 、 排 版 设计 方面 非常 有 特色 ， 用 “新 络 ” 二 字形 容 训 不 为 过 ， 用 “有 周 
到 ”二 字形 容 也 十 分 妥当 。 


其 构思 跌宕 起 伏 ， 其 行文 妙趣 横生 ， 无 论 读者 是 职场 老手 ， 还 是 业 
界 新 人 ; 无 论 是 字 其 句 酌 ， 还 是 信 手 翻阅 ， 相 信和 都 能 跟着 文字 在 职场 中 
走 上 几 回 ， 体 味 数 据 分 析 领 域 的 乐趣 与 挑 成 。 一 本 技术 图 书 ， 在 传道 授 
业 之 外 ， 又 为 读者 送 上 了 章 回 小 说 的 精彩 。 


这 些 设 计 巧 妙 的 “ 章 回 ?生动 地 辐 读 者 展现 了 数据 分 析 基 本 步 又、 实 
验方 法 、 最 优化 方法 、 假 设 检验 方法 、 贝 叶 斯 统计 方法 、 主 观 概 率 法 、 
局 发 法 、 直 方 图 法 、 回 归 法 、 误 差 处 理 、 相 关 数 据 库 、 数 据 整理 技巧 ， 
此 后 意犹未尽 ， 叉 以 3 访 附 录 介 绍 数据 分 析 十 大 要 务 、R 工 具 及 ToolPak 
工具 ， 在 尽情 展现 目标 知识 以 外 ， 为 读者 搭建 了 走 回 深入 研究 的 桥梁 。 


与 我 们 司空 见 惯 的 很 多 书籍 不 一 样 ， 本 书 更 愿意 引导 读者 进行 思 
考 ， 而 不 愿 回 读者 灌输 现成 的 条 条 框框 去 禁 铀 读者 的 想象 空间 。 在 本 书 
点 到 即 止 的 局 发 下 ， 读 者 很 有 可 能 跃跃欲试 ， 急 不 可 竺 地 要 把 目光 投 问 
人 
涉 折 世人 


文章 字里行间 流露 出 作者 传道 授 业 的 热忱 ， 以 下 仅 举 两 例 : 























一 是 设法 克服 术语 的 障碍 。 这 一 点 ， 英 语 使 用 者 勾 怕 比 中 文 使 用 者 
体会 更 深 ， 层 出 不 穷 的 英语 术语 甚至 让 以 英语 为 母语 的 读者 感到 厌倦 和 
头痛 ， 作 者 深 知 这 一 点 ， 于 是 尽量 用 浅显 的 语言 表述 ， 解 除 英 语 读者 的 
心头 之 患 ， 至 于 中 文 ， 感 谢 祖 国语 言 的 优秀 特性 ， 倘 徊 作为 译 者 的 我 没 
有 在 这 里 帮 倒 忙 ， 术 语 方面 的 问题 甚至 可 以 忽略 不 计 了 为 方便 读者 审 
评 ， 部 分 术语 翻译 对 照 表 可 在 此 下 载 : http:Vimages.china- 
pub.com/ebook195001-200000/197047/shuyu.pdf ) 。 


二 是 设法 实现 理论 与 实践 的 转化 。 理 论 如 何 向 实践 转化 ， 一 向 是 学 
习 者 的 难题 。 然 而 本 书 精 心 构思 的 “ 章 回 ”体裁 ， 却 让 理论 知识 与 实际 操 
作 水 乳 交 融 ， 职 场 气息 扑面 而 来 ， 除 了 谈 分 析 ， 作 者 也 谈 经 济 、 谈 局 
势 、 谈 心理 、 谈 做 人 ， 涉 猪 广泛 ， 面 面 俱 到 。 

能 够 理解 ， 作 者 希望 这 本 书 成 为 读者 书架 上 的 常备 手册 ， 在 读者 走 
进 数据 分 析 领 域 之 初 ， 或 是 遇 到 从 业 疑 难 时 ， 提 供 力 所 能 及 的 帮助 。 我 
也 如 此 希望 。 
后 ， 请 容 我 借 本 序 致谢 : 
谢 博文 视点 。 
感谢 徐 定 翔 编辑 对 我 的 信任 和 指教 。 


感谢 家 人 对 我 的 理解 和 文 持 。 
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自 玲 以 扯 信 ， 他 们 帝 
把 这 些 东 西 写 进 讲 数 
据 分 析 葛 书 里 了 。 


本 节 回 答 一 个 热门 问题 :“ 作 者 为 什么 非 要 把 这 些 东 西 写 进 一 本 讲 数据 
分 析 的 书 里 ? ” 


谁 适合 阅读 本 书 ? 
请 先 回答 几 个 问题 


圆 你 觉得 ， 数 据 中 隐 含 了 无 穷 的 智慧 ， 只 要 有 合适 的 工具 ， 就 
能 利用 这 些 智慧 ， 对 吗 ? 


团 你 想 学 习 、 理 解 和 记忆 如 何 创建 靓丽 的 图 形 、 试 验 假设 条 
件 、 进 行 回归 分 析 或 整理 混乱 的 数据 ， 对 吗 ? 


加 ”你 喜欢 笑语 喧哗 的 晚宴 其 于 枯燥 、 无 聊 的 学 术 演 讲 ， 对 吗 ? 
如 果 以 上 问题 全 部 回答 “对 ! ”这 本 书 适合 你 。 

谁 该 和 本 书 说 拜拜 ? 
请 先 回 答 几 个 问题 : 


国 ”你 是 一 个 经 验 老道 的 数据 分 析 师 ， 正 在 调查 数据 分 析 领 域 最 
前 沿 的 谍 题 ， 对 吗 ? 


你 从 未 用 过 Microsoft Excel 或 OpenOffice calc， 对 吗 ? 

图 你 惧怕 尝试 新 事物 ， 宁 可 上 山 打 虎 也 不 愿 标新立异 ， 对 吗 ? 
你 认为 要 是 用 拟人 的 手法 叙述 控制 组 和 目标 函数 ， 技 术 书 籍 就 难免 
有 失 严 肃 ， 对 吗 ? 


只 要 有 一 个 问题 回答 “对 ! ” 











你 与 本 书 无 缘 。 





[营销 部 撒 话 一 一 只 要 有 信用 卡 束 可 以 买书 哦 。j 





“这 些 图 都 是 用 来 干 啉 的 ?” 
“我 真能 这 样 学 数据 分 析 吗 ? ” 


我 们 了 解 你 的 大 脑 在 想 什 么 


你 抬 太 有 
本 要 人 懈 关 得 这 和 


o 





你 的 大 脑 淘 望 新 事物 。 大 脑 总 是 不 集 地 搜索 、 探 但、 等 待 ” 不 同 寻 
常 的 事物 ， 它 天 生 如 此 ， 这 正 是 你 活力 的 来 源 。 

那么 ， 大 脑 怎 么 对 符 你 所 碰 到 的 常规 、 普 通 、 一 般 的 事情 呢 ? 
它 会 竭尽 全 力 阻止 这 些 事情 ， 以 免 干 扰 自 己 真正 的 ”工作 一 一 记录 重要 
事项 。 大 脑 不 会 费力 保存 这 些 琐事 ;这 些 琐事 从 来 不 会 成 功 地 间 过 “ 明 
显 不 重要 事项 ”的 关卡 。 


你 的 大 脑 如 何 知 道 ” 哪 件 事 重要 ? 假想 有 一 天 你 出 门 旅行 ， 迎 面 扑 
来 一 只 吊 睛 日 额 大 虎 ， 你 的 头脑 和 里 体会 有 什么 有 反应? 


神经 元 发 动 …... 情 绪 激 动 .…... 化 学 物质 激增 
于 是 ， 你 的 大 脑 知 道 一 一 
这 事 绝对 重要 ! 记 住 ! 














但 ， 想 像 你 是 末 在 家 里 ， 或 者 是 下 在 图 书馆 里 ， 也 就 是 说 ， 是 在 一 
个 安全 、 温 暖 、 没 有 老虎 的 地 方 。 


你 正在 复习 迎 考 ， 要 不 然 束 是 在 努力 并 明白 一 些 艰 深 的 技术 ， 你 的 
老板 认为 花 个 把 星期 就 能 搞定 ， 顶 多 十 天 。 


唯一 的 问题 是 : 你 的 大 脑 想 好 好 帮 你 一 把 ， 它 试图 保证 不 让 这 
种 “明显 不 重要 ”的 内 容 去 破坏 珍稀 的 资源 ， 这 些 珍稀 的 资源 最 好 用 来 保 
存 真正 “重大 ”的 事情 ， 像 老虎 啊 ， 像 火灾 险情 啊 ， 像 你 绝 不 该 在 大 学 生 
网 站 Facebook 的 网 页 上 贴 上 那些 聚会 照片 啊 。 没 有 什么 便当 的 办 法 可 以 
告诉 大 脑 “ 喂 ， 大 脑 ， 我 对 你 感激 之 至 ， 可 惜 啊 ， 不 管 这 本 书 多 无 聊 ， 
0 00 希望 你 把 这 些 材 料 都 记 
让 a ” 





我 们 认为 该 系列 图 书 的 读者 都 是 学 习 者 。 


既然 要 和 学习， 怎样 才能 学 会 呢 ?” 弟 先 ， 你 得 损 屏 ， 然 后 ， 切 勿 遗 
未 ;一 字 一 句 便 蹇 不 是 办 法 。 根 据 最 新 的 认 知 科学 、 神 经 生物 学 及 
教育 心理 学 研究 结果 ， 学 习 远 不 仪 仪 是 读书 认 字 。Head First 知道 
怎么 让 你 的 脑筋 动 起 来 。 


下 面 是 部 分 深入 浅 出 (Head First ) 教学 原则 : 














将 知识 图 形 化 。 ”图形 比 单调 的 文字 好 记得 多 ， 可 以 提高 学 习 效率 
《记忆 学 习 和 转移 学 习 的 学 习 效率 最 多 能 提高 89%) ; 图 形 还 能 让 
知识 更 容易 理解 ， 相 比 将 文字 放 在 页 脚 和 下 一 页 ， 将 文字 放 在 相关 
ee 学 习 者 成 功 解决 相关 问题 的 可 能 性 将 成 倍 


采用 对 话 式 的 个 性 化 风格 。 最 近 的 研究 表明 ， 要 是 回避 一 本 正经 
的 语气 ， 代 之 以 对 话 般 的 风格 ， 以 第 一 人 称 平 易 近 人 地 给 学 生 上 

诬 ， 学 生 的 诬 后 测验 成 绩 最 多 可 提高 40%。 多 讲 儿 个 故事 ， 少 来 一 
扩 局 谈 阔 论 ， 语 气 宜 随 和 。 别 太 郑重 其 事 。 想 想 看 ， 一 局 笑语 喧哗 
的 上 晚 妥 和 一 场 演 讲 ， 哪 一 样 更 让 你 恼 记 ? 








引导 读者 深入 思考 : 换 句 话说 ， 除 非 读者 主动 调动 目 己 的 神经 
元 ， 侍 则 脑袋 里 不 会 发 生 什么 大 变化 。 只 有 激发 读者 的 兴趣 ， 引 起 
读者 的 好 奇 ， 刺 激 读 者 的 灵感 ， 读 者 才能 解决 问题 ， 得 出 结论 ， 获 
得 新 知识 。 为 此 ， 讲 授 者 要 设计 各 种 难题 、 练 习 ， 提 出 引 人 和 人 深思 的 
提问 ， 还 要 多 让 读者 做 一 些 让 左右 脑 半 球 和 多 种 感官 都 动 起 来 的 活 


动 。 


牢 牢 吸引 读者 的 注意 力 。 大 家 都 有 这 样 的 体验 








“我 是 真 想 学 ， 





但 看 完 第 一 页 就 蛇 了 ”。 大 脑 注意 的 是 不 同 寻 和 名 的 、 有 趣 的 、 奇 怪 
的 、 引 人 注意 的 、 出 人 意料 的 事情 。 和 学习 一 种 新 闲 艰 深 的 技术 不 一 
定 非得 枯燥 不 可 ， 如 果 它 不 是 这 样 乏味 ， 大 脑 会 学 得 更 快 。 





影响 读者 的 情感 。 现 已 知道 ， 人 的 记忆 能 力 在 很 大 程度 上 取决 于 
要 记忆 的 内 容 对 情感 的 影响 。 我 们 关心 什么 ， 就 会 记 住 什么 ; 我 们 
对 什么 事 有 感觉 ， 就 会 记 住 什么 。 这 里 讲 的 情感 并 非 天 灾 人 祸 给 人 
市 来 的 其 心 裂 肺 的 伤 痛 情 感 ， 而 是 惊讶 、 好 奇 、 感 党 有 趣 、 想 奶 根 
完 奔 之 类 的 情感 ， 以 及 在 猜 对 一 个 字谜 、 在 学 会 别人 感觉 难以 学 会 
的 事情 或 是 在 意识 到 自己 懂 的 东西 居然 比 工 程 部 那 位 开口 闭口 “我 
比 你 有 技术 ”的 张 三 还 多 时 ， 油 然而 生 的 “我 是 老大 ”的 感觉 。 














元 认 知 ® 对 思考 的 忆 






怎样 才能 让 我 的 大 
脑 记 住 这 些 资 料 呢 ? 


如 果真 想 学 东西 ， 而 且 想 学 得 更 快 更 深入 ， 就 要 关注 目 己 如 何 集中 
注意 力 。 要 思考 自己 的 思考 方式 ; 研究 自己 的 研究 方式 。 


大 多 数 人 在 成 长 过 程 中 都 不 曾 学 习 元 认 知 和 学 习 理 论 方面 的 知识 。 
人 们 期 望 我 们 学 知识 ， 但 极 少 有 人 教 我 们 如 何 学 。 


但 想象 得 到 ， 兵 着 本 书 的 你 ， 的 确 想 学 习 数据 分 析 知 识 ， 同 时 可 能 
不 想 人 花费 太 多 时 间 。 要 想 利用 在 本 书 中 读 到 的 知识 ， 束 得 记 住 读 过 的 知 
识 ， 为 此 必须 理解 这 些 知 识 。 为 了 淋漓 尽 致 地 友 挥 本 书 或 任何 书本 或 
学 习 经 验 的 作用 ， 请 管 好 你 的 大 脑 ， 请 管 好 大 脑 对 每 本 书 的 态度 。 


诀 罕 在 于 让 大 脑 把 正在 学 习 的 新 资料 当做 “正经 大 事 ” 一 一 对 幸福 全 
关 重 要 的 大 事 ， 像 老虎 一 样 章 要 的 大 事 。 奋 非 如 此 ， 你 就 会 陷入 一 场 持 
久 战 : 你 竭力 要 记 住 新 知识 ， 大 脑 却 竭力 要 把 这 些 新 知识 踢 出 去 。 


赋 然 如 此 ， 如 何 让 大 脑 像 对 每 吃 人 的 老虎 一 样 对 待 数 据 分 析 知 识 呢 ? 


有 两 种 办 法 ， 一 种 缓慢 而 乏味 ， 一 种 迅速 而 有 效 。 慢 办 法 是 简单 记 
忆 。 你 显然 明白 ， 只 要 不 集 地 把 同样 的 东西 往 大 脑 里 灌 ， 即 使 是 最 乏味 
的 知识 ， 也 能 学 会 、 记 牢 。 只 要 重复 灌 的 次 数 足 够 多 ， 大 脑 就 会 
想 :“ 这 些 东西 给 他 的 感觉 并 不 重要 ， 但 他 不 售 地 看 这 些 相同 的 东西 ， 














一 过 ， 一 届 ， 再 一 过 。 因此 我 猜 这 些 东西 肯定 很 重要 。?” 


快 办 法 是 做 一 切 增 进 大 脑 活动 ”的 事 ， 盛 其 是 不 同类 型 ”的 大 脑 活 
动 。 上 一 页 讲 了 很 多 这 样 的 活动 ， 事 实证 明 ， 这 些 活动 全 都 能 促使 大 脑 
以 有 利于 己 的 方式 工作 。 例 如 ， 研 究 表明 ， 将 文字 放 在 文字 所 描述 的 图 
片 当中 《相反 的 做 法 是 将 文字 放 在 页 面 中 的 其 他 位 置 ， 如 注释 位 置 或 正 
文 位 置 ) ， 会 促使 大 脑 努 力 搞 清 楚 文 字 和 图 片 之 间 的 关系 ， 进 而 发 动 更 
多 神经 元 。 更 多 神经 元 发 动 = 更 有 机 会 让 大 脑 明 白 茶 件 事 值得 注意 ， 可 
能 还 值得 记 住 。 


对 话 式 的 写作 风格 对 此 很 有 帮助 。 人 们 在 与 人 对 话 时 注意 力 会 更 集 
中 ， 原 因 是 别人 期 竺 他们 有 所 表现 。 令 人 惊讶 的 是 ， 大 脑 不 一 定 会 在 意 
“对 话 ” 是 在 人 和 书 之 间 进 行 ! 反之 ， 要 是 写作 风格 了 无 新 意 ， 乏 味 村 
燥 ， 大 脑 的 感 党 就 和 在 挤 满 消 极 听众 的 屋子 里 听 演 讲 没什么 两 样 : 没 必 


要 保持 清醒 。 


不 过 ， 图 形 和 对 话 式 风格 只 是 起 步 .……. 
































我 们 的 做 法 


我 们 使 用 丰富 的 图 片 ”， 这 是 因为 ， 大 脑 奶 逐 图 像 ， 而 非 文 字 。 在 
大 脑 的 活动 中 ， 一 张 图 片 胜 过 千言 万 语 。 当 同时 使 用 图 片 和 文字 进行 说 
明 时 ， 我 们 将 文字 填写 在 图 片 当中 ， 当 文字 出 现在 它 所 描述 的 事物 当中 
时 ， 大 脑 的 工作 更 有 效率 ;相反 ， 知 将 次 明 性 文字 放 在 注释 或 其 他 正文 
当中 ， 则 无 此 效果 。 


我 们 使 用 反复 论述 法 ， 即 以 不 同 的 方式 、 通 过 不 同 的 媒介 对 同一 
主题 进行 反复 描述 ， 给 该 者 营造 丰富 的 感受 ， 有 目的 是 让 这 些 主题 有 更 
多 机 会 印 在 大 脑 的 多 个 区 域 。 


我 们 以 出 人 意料 的 ”方式 拆 述 概念 和 使 用 图 片 ， 因 为 ， 大 脑 退 逐 新 
鲜 事 物 ， 我 们 在 图 片 和 创意 中 或 多 或 少 加 入 了 一 些 情感 性 ”的 内 容 ， 因 
为 ， 大 脑 关 注 情感 的 生物 化 学 反应 。 让 人 有 所 感触 ”的 东西 更 可 能 让 人 
记 住 ， 即 使 这 点 感触 不 过 是 一 丝 幽默 、 一 丝 惊 讶 或 一 丝 兴趣 。 


我 们 使 用 个 性 化 的 对 话 式 写作 风格 ， 因 为 ， 当 大 脑 认为 你 是 在 进 
行 对 话 而 不 是 在 消极 地 听 报 告 时 ， 束 会 调整 到 注意 力 更 集中 的 状态 。 即 
使 在 读书 时 ， 大 脑 也 是 这 个 习惯 。 

我 们 安排 了 80 多 个 活动 ， 因 为 ， 相 比 读 书 ， 在 做 事 时 ， 大 脑 经 过 


调整 ， 能 学 会 和 记 住 更 多 东西 。 我 们 安排 的 练习 有 难度 ， 但 不 会 让 人 束 
手 无 策 ， 这 正 是 大 多 数 人 愿意 做 的 练习 。 




















我 们 使 用 多 种 教学 风格 ， 因 为 ， 有 的 人 可 能 喜欢 一 步 一 步 按 顺 序 
来 ， 有 的 人 可 能 喜欢 先 看 懂 大 图 ， 还 有 一 些 人 可 能 只 想 看 看 例子 。 我 们 
将 以 多 种 方式 反复 讲述 相同 的 主题 ， 不 管 读 者 的 个 人 爱好 如 何 ， 他 们 都 
将 因此 受益 菲 浅 。 


我 们 安排 了 让 左右 脑 半球 ”分别 负责 的 内 容 ， 因 为 ， 大 脑 开 动 部 位 
越 多 ， 就 学 得 越 多 ， 记 得 越 多 ， 注 意 力 更 持久 。 由 于 一 侧 大 脑 工 作 往 往 
意味 着 万 一 侧 大 脑 得 到 休息 ， 左 右 半 脑 的 分 工 合作 使 得 长 时 间 学 习 的 学 
习 效 率 得 到 提高 。 


我 们 还 安排 了 一 些 场景 ”和 练习 ， 在 场景 中 展现 不 同 的 观点 ， 因 
为 ， 当 大 脑 被 迫 进行 评估 和 判断 时 ， 会 调整 到 深入 学 习 状 态 。 


我 们 在 练习 中 安排 了 一 些 难点 ”， 即 提出 一 些 无 法 简单 回答 的 问题 
。 因 为 ， 你 的 大 脑 在 不 得 不 处 理 ” 某 件 事情 时 ， 会 调整 到 学 习 和 记忆 状 











态 。 开 动脑 筋 吧 , “ 光 看 别人 做 运动 无 法 让 上 自己 体态 健美 >。 别 担心 ， 
我 们 尽力 保证 ， 你 努力 学 习 的 都 是 该 学 的 ， 你 不 会 为 了 对 付 一 个 费解 的 
人 
细胞 。 


我 们 以 人 物 “《 为 例 ， 把 人 物 安排 在 场景 、 实 例 、 图 片 等 内 容 中 。 至 
于 原因 嘛 ， 因 为 你 是 人 群 中 的 一 员 啊 ， 你 的 大 脑 对 人 比 对 事 更 关注 。 








你 的 任务 : 征服 大 脑 


我 们 的 工作 到 此 为 止 ， 剩 下 的 就 看 你 的 了 。 从 下 面 这 些 提示 出 友 ， 
顺从 大 脑 的 判断 ， 看 看 哪些 对 你 有 用 ， 哪 些 对 你 没 用 ， 尝 试 一 下 新 事物 
吧 。 


BR 
SP 


| 


把 这 张 图 勇 下 来 ， 贴 在 冰箱 上 。 


慢 慢 读 。 理 解 的 内 容 越 多 ， 要 记忆 的 内 容 越 少 。 

忌 死 读 。 停 一 停 ， 想 一 想 ， 矶 到 书 中 的 提问 时 ， 别 直接 翻 看 答 
案 ; 想象 真 的 有 人 在 问 你 这 个 问题 。 强 迫 目 己 的 大 脑 想 得 越 深 ， 学 
会 、 记 住 的 概率 就 越 大 。 


目 己 做 练习 ， 目 己 记 笔记 。 

我 们 安排 了 练习 和 笔记 ， 但 是 ， 要 是 我 们 蔡 你 完成 ， 就 像 让 别人 和 蔡 
你 锻 炬 号 体 一 样 ， 只 动 眼 不 动手 也 不 可 取 ， 要 动 动笔 。 大 量 证 据 

证 明 ， 学 习 时 的 吴 体 动作 能 提高 学 习 效率 。 

阅读 “世上 没有 傻 问题 ?部 分 。 

世上 没有 傻 问题 。 这 些 问题 并 非 可 看 可 不 看 ， 这 是 核心 内 容 的 组 成 


部 分 ! 请 勿 忽略 。 


请 将 下 面 这 段 话 作 为 最 后 一 段 床 头 阅 读 文 字 ， 或 起 码 作为 最 





后 一 段 高 深 的 床 头 阅读 文字 。 

有 一 部 分 学 习 过 程 〈 尤 其 是 短暂 记忆 转变 为 长 期 记忆 的 过 程 ) 发 生 
在 放下 书本 之 后 ， 大 脑 需 要 有 上 自己 的 时 间 进 行 更 多 处 理 。 如 果 在 
这 段 处 理 时 间 内 学 新 东西 ， 将 会 丢失 一 些 刚 学 会 的 东西 。 


图 开口 大 声讨 论 。 

说 话 会 刺激 大 脑 的 其 他 部 分 。 如 果 你 正在 努力 理解 一 些 知 识 ， 或 者 
正在 努力 增加 以 后 记 住 这 些 知识 的 概率 ， 请 大 声 说 出 这 些 知识 。 还 
有 一 种 更 好 的 做 法 ， 试 着 同 别人 大 声 解释 这 些 知 识 。 你 会 学 得 更 
快 ， 可 能 还 会 发 现 一 些 阅 读 时 不 曾 发 现 的 名 堂 。 


大 量 喝 水 。 
充沛 的 体液 会 让 大 脑 处 于 最 佳 工作 状态 ， 脱 水 〈 早 在 感到 口 渴 前 就 
会 发 生 ) 则 会 让 认 知 功能 下 降 。 


贺 ” 聆听 大 脑 的 声音 。 

留意 你 的 大 脑 是 否 超 负荷 工作 。 若 你 发 现 自己 开始 心 不 在 在， 或 者 
刚刚 读 过 的 东西 转眼 忘记 ， 就 该 休息 。 一 旦 过 了 某 个 学 习 点 ， 哪 怕 
拼命 塞 ， 也 无 法 提高 学 习 效率 ， 反 而 有 可 能 影响 学 习 。 


图 ”找到 感觉 。 
大 脑 需 要 知道 事情 是 否 重要 。 让 自己 融入 各 种 场景 ， 为 照片 设想 
旁 注 ， 就 连 抱 她 一 个 并 不 好 笑 的 玩笑 ， 也 比 什么 感觉 都 没有 强 。 


勤 加 练习 ! 

学 会 数据 分 析 的 唯一 办 法 就 是 勤 加 练习 ， 这 正 是 本 书 的 要 求 。 数 据 
分 析 是 一 门 技术 ， 精 于 此 道 的 唯一 办 法 就 是 大 量 实践 。 本 书 将 给 你 
带 来 大 量 实践 机 会 : 每 一 章 中 都 有 一 个 等 待 你 解决 的 问题 ， 千 万 别 
跳 过 这 些 问 题 不 看 一 一 大 量 学 习 都 发 生 在 解决 问题 的 过 程 中 。 我 们 
为 每 一 个 问题 提供 了 答案 ， 要 是 卡 了 壳 《 有 些 细微 之 处 很 容易 给 人 
带 来 麻烦 ) ， 别 不 敢 看 ! 不 过 ， 请 尽量 先 解决 问题 再 看 答案 ， 务 必 
让 你 的 办 法 行 之 有 效 ， 然 后 才 继 续 看 书 中 的 下 一 部 分 内 容 。 
































目 述 


本 书 是 经 验 之 谈 ， 并 非 参考 书籍 ， 我 们 故意 抽 近 了 会 妨碍 讲述 书 中 
相关 知识 的 东西 。 本 书 对 你 已 经 见识 过 和 学 习 过 的 知识 作 了 一 些 假设 ， 
因此 第 一 次 通读 本 书 的 时 候 ， 需 要 从 头 读 起 。 


本 书 并 非 软件 工具 指导 书 。 


许多 以 “数据 分 析 ” 为 题 的 图 书 都 是 顺 着 Excel 函 数 表 把 认为 和 数据 分 
析 有 关 的 部 分 一 路 讲 下 去 ， 然 后 针对 每 个 函数 给 几 个 实例 。 但 《深入 小 
出 数据 分 析 》 讲 的 是 如 何 成 为 数据 分 析 师 ， 尺 管 你 在 本 书 中 会 学 到 相 
ee 
思 o 


我 们 希望 你 懂得 如 何 使 用 基本 的 电子 表格 公式 。 


用 过 电子 表格 的 SUM 求 和 公式 吗 ? 要 是 没 用 过 ， 你 可 能 先 要 突击 一 
下 才能 开始 学 习 本 书 。 尽 管 许多 章节 根本 不 要 求 使 用 电子 表格 ， 但 其 他 
人 
基础 不 错 。 


本 书 超 越 统 计 学 。 

本 书 充 满 统 计 知 识 ， 作 为 数据 分 析 师 ， 你 应 该 尽量 多 掌握 一 些 统计 
知识 ， 读 完 《 深 入 浅 出 数据 分 析 》 之 后 ， 最 好 再 读 一 恋 《 深 入 浅 出 统计 
学 》 (Head First Statistics ) 。 不 过 ， 数 据 分 析 不 仅 涵 盖 统 计 学 ， 还 牵 
涉 许 多 其 他 领域 ， 本 书 中 选用 的 非 统 计 题 材 主要 用 于 讲解 来 源 于 现实 生 
活 的 具体 、 实 用 的 数据 分 析 经 验 。 


活动 并 非 可 做 可 不 做 。 

练习 和 活动 不 是 点 级 ， 而 是 本 书 的 核心 组 成 部 分 。 这 些 练习 和 活动 
有 的 是 为 了 帮助 记忆 ， 有 的 是 为 了 帮助 加 深 理 解 ， 还 有 的 是 为 了 帮助 应 
用 所 学 知识 ， 切 勿 忽略 。 


反复 论述 是 刻意 而 重要 的 安排 。 





























深入 浅 出 系列 图 书 有 一 个 明显 特色 : 我 们 希望 你 真正 ”掌握 学 到 的 
知识 ， 我 们 和 希望 你 在 看 完 本 书 的 同时 就 记 住 学 到 的 知识 。 大 多 数 参考 书 
都 不 把 记忆 和 回忆 当做 一 个 目标 ， 但 本 书 的 目标 是 学 会 ”， 所 以 ， 常 常 
会 看 到 同一 概念 多 次 出 现 。 


本 书 意犹未尽 。 


我 们 乐于 看 到 你 在 书籍 合作 网 站 上 找到 更 多 实用 而 有 趣 的 资料 ， 下 
列 网 站 可 为 你 提供 这 些 资料 : 


http:/www.headfirstlabs.com/books/hfda/. 
“ 动 动脑 ”练习 没有 管 案 。 
有 一 些 “ 动 动脑 ”练习 没有 标准 答案 ， 另 有 一 些 练习 可 以 参考 “ 动 动 


脑 ? 话 动 的 学 习 经 验 部 分 判断 目 己 的 答案 是 人 否 正确 ， 以 及 在 什么 情况 下 
会 正确 。 部 分 “ 动 动脑 ” 练 习 给 出 了 提示 ， 为 你 指明 正确 方 问 。 








技术 顾问 组 





技术 顾问 : 


Eric Heilman ， 美 国 齐 治 吝 大 学 沃 尔 什 外 交 学 院 优 秀 毕 业 生 ， 国 际 
经 济 学 学 位 。 在 哥伦比亚 特区 读 大 学 期 间 ， 兽 在 美国 国务 院 和 白宫 国家 
经 阐 委 员 会 工作 。 他 在 芝加哥 大 学 完成 经济 学 毕业 论文 ， 目 前 在 位 于 美 
国 马 里 兰州 中 蹇 斯 达 〈Bethesda) 的 乔治 敦 大 学 预备 学 校 任 统计 分 析 和 
数学 教师 。 


Bill Mietelski ， 软 件 工 程 师 ， 三 度 担 任 深入 浅 出 (Head First ) 技 
术 顾 问 。 他 急 不 可 待 地 想 给 自己 的 高 尔 夫 技 术 做 个 数据 分 析 ， 好 在 球场 
上 一 领 风 骚 。 


Anthony “Rose  ， 在 数据 分 析 领 域 从 业 近 十 年 ， 目 前 任 Support 
Analytics 公 司 总 裁 、 数 据 分 析 及 图 表 顾 问 。Anthony 拥 有 财务 与 管理 专 
业 工 商 管理 硕士 学 位 ， 他 对 数据 分 析 的 热爱 由 此 开始 。 工 作 之 余 ， 他 第 
第 出 现在 马里 兰州 哥伦比亚 市 的 高 尔 夫 球场 上 ， 陶 醉 在 好 书 中 ， 品 味 着 











美味 的 葡萄 酒 ， 或 者 和 年 幼 的 女儿 们 及 迷人 的 妻子 一 起 消磨 时 光 。 


致谢 
我 的 编辑 : 


Brian Sawyer ， 一 位 不 可 思议 的 编辑 。 和 了 Brian 一 起 工作 就 像 和 舞 
蹈 家 共 舞 ， 各 种 各 样 重要 的 工作 纷 至 俏 来 ， 虽 令 人 不 十 分 理解 ， 看 上 去 
却 很 不 错 ， 让 人 干 得 兴高采烈 。 我 们 的 合作 振奋 人 心 ， 他 的 支持 、 反 人 馈 
和 创意 是 无 价 之 宝 。 





Brian Sawyer 
O'Reilly 团 队 : 


Brett McLaughlin 一 开始 就 看 到 了 这 个 项 目的 前 途 ， 引 领 项 目 走 过 
艰难 岁月 ， 始 终 如 一 地 支持 项 目 。Brett 孜 和 孜 不 倦 地 强调 你 “对 深入 浅 出 
(Head First ) 书籍 的 体验 ， 让 人 备 受 鼓舞 。 他 运筹 疏 幅 。 








Swett Meddaughtlin 


Karen Shaner 提供 后 勤 文 持 ， 在 剑桥 寒冷 的 清晨 给 我 们 珊 来 很 多 
Brittany Smith 贡献 了 一 些 非 常 棒 的 图 形 元 系 ， 供 我 们 反复 使 


给 我 局 示 的 害 智 者 : 


本 书 有 大 量 出 色 的 创意 ， 许 多 创意 在 以 “数据 分 析 ” 为 题 的 书籍 中 颇 
不 和 常见， 但 这 些 创 意 很 少 是 我 个 人 的 独创 。 我 从 Dietrich Doerner、Gerd 
Gigerenzer、Richards Heuer、Edward Tufte 等 超级 智 星 的 的 作品 中 汲取 
了 大 量 经 验 。 把 他 们 的 作品 统统 读 一 过 吧 !“ 反 查 ”(anti-resume) 这 个 
创意 出 自 Nassim Taleb 的 《 黑 天 鹅 》 (真希 望 他 出 第 二 部 ， 带 来 更 多 创 
意 ) ; Richards Heuer 好 心地 给 我 回信 讨论 本 书 ， 还 给 我 出 了 很 多 有 用 
的 主意 。 


朋友 与 同事 : 


感谢 Lou Barr 为 本 书 提供 知识 产权 、 职 业 道 德 、 逻 辑 学 及 美学 文 
持 ; Vezen Wu 给 我 讲解 关系 模型 ，Aron Edidin 在 我 大 学 求学 期 间 曾 赞 
助 我 学 习 一 门 超 棒 的 情报 分 析 课 ; 我 的 牌 友 Paul、Brewster、Matt、Jon 
和 Jason 给 我 上 了 关于 均衡 使 用 启发 法 和 最 优化 决策 法 的 昂贵 一 课 。 








Rlair 与 Niko Christian 
离开 这 些 人 我 没 法 活 : 


技术 顾问 组 “工作 出 色 ， 他 们 掀 出 成 堆 的 错误 ， 提 出 大 量 建议 ， 给 
予 我 巨大 支持 。 在 本 书 撰写 过 程 中 ， 我 对 一 位 心思 续 密 的 统计 师 我 
的 朋友 Blair Christian 依赖 甚 深 ， 书 中 每 一 页 都 能 看 到 他 的 影子 。 谢 谢 
你 为 我 做 的 一 切 ，Blair。 


我 的 家 人 Michael Sr.、Elizabeth、Sara、Gary 和 Marie 给 了 我 
、 尤其 要 感谢 我 的 妻子 Julia 的 坚定 文 持 se 
系 ! 





dulia Burch 


1 分 解数 据 
数据 分 析 引 言 


( 我 达到 了 生养 、 大 蒜 、 
痰 要 的 味道 ， 可 能 还 有 





数据 无 处 不 在 。 


如 今 ， 不 管 是 不 是 自称 数据 分 析 师 ， 人 人 都 得 处 理 扒 积 如 山 的 数 
据 。 熟 庶 一 切 数据 分 析 技 术 方 法 的 分 析 者 会 比 其 他 人 技 高 一 筹 ”: 他 们 
知道 如 何 处 理 ”所 有 的 数据 材料 ， 如 何 将 原始 数据 转变 成 推进 现实 工作 
的 妙 策 ， 如 何 分 解 和 构建 ”复杂 的 问题 和 数据 集 ， 进 而 牢 牢 把 握 工 作 中 
的 各 种 问题 的 要 害 。 





Acme 化 妆 品 公司 需要 你 出 力 


这 和 古 你 走 上 数据 分 析 师 岗位 的 第 一 天 ， 刚 刚 收 到 了 首席 执行 官 发 来 
的 销售 数据 ， 需 要 奔 阅 一 下 。 数 据 反 映 了 Acme 公 司 旗舰 产品 一 一 貌 洁 
超 强 保湿 霜 的 销售 情况 。 











己 二 二 站 入 上 闹 简 量 消 旦 下 并 和 记 3 Ce 
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和 证 Fenr 的 入 | 秆 训 于 这 灿 单 许 清 全 
去 规律 了 双 。 过 站 化 1 总 外 各 下 萌 子 ? 


看 看 这 些 数据 ， 不 必 抽 丝 剥 理 一 一 只 要 放 慢 速度 就 行 。 


看 出 什么 了 吗 ? 表格 让 你 对 Acme 的 业务 了 解 了 多 少 ? 对 Acme 的 朋 
洁 超 强 保湿 钉 了 解 了 多 少 ? 


优秀 的 数据 分 析 师 总 想 看 到 数据 。 








首席 执行 官 希 望 数据 分 析 师 玫 他 提高 销量 
他 希望 你 “ 帮 他 分 析 分 析 ”。 
这 要 求 很 含糊 ， 不 是 吗 ? 听 起 来 挺 简单 ， 可 你 的 工作 会 那么 顺 


吗 ? 不 错 ， 他 和 希望 提高 销量 ; 不错， 他 认为 这 些 数据 中 有 些 东西 能 帮助 
实现 这 个 目标 。 可 到 底 是 哪些 东西 呢 ? 怎么 帮 呢 ? 









戏 迎 加 入 才 休 的 团队. 荐 看 我 们 
的 数据 ， 答 我 分 析 分 析 ， 说 说 筷 
站 证 几何 提高 销量 等 你 的 处 论 ， 


动 动脑 


想 想 首席 执行 官 主 要 想 从 你 这 里 得 到 什么 ， 同 时 思考 这 个 问题 : 做 
数据 分 析 到 压 意 味 着 什么 ? 


数据 分 析 就 是 仔细 推 融 证 据 


数据 分 析 这 个 词 滔 肥大 车 撒 形 色 色 的 1. 作 和 .人 人 
基 形 形 色色 的 技巧 。 就算 有 大 明 疾苦 还 你 她 是 将 混 
分 析 师 ， 你 依然 大 法 确定 姓 的 专长 


你 可 能 会 打赌 说 籽 怪 


2xeel， 但 仅 此 而 已 1 


但 是 ， 所 有 优秀 的 分 析 师 ， 无 论 专长 及 目标 如 何 ， 都 会 在 工作 过 程 





中 按 顺 序 执行 下 面 这 个 固定 基本 流程 ， 同 时 通过 经 验 数 据 来 仔细 推敲 
各 种 问题 。 


竹 斗 是 机 折 夫 天 ， 浆 总 注 - 步 寺 蕉 
前 面 步 了 至 到 蜗 情 况 征 料 池 特 插 范 ， 
1 





一 


宫 香 司 题 和 鼻 把 ， 定 基 季 避 ， 代 所 这 坚 苇 共生 新 相合 挛 
时 辣 范 轨 小 攀 柱 戌 太吉 ， 一 起， 着 求 { 建 襄 ] 一 个 法 菜 。 


订 -- 兴 是 了 能 回 歇 ， 





在 本 书 的 每 一 章 中 ， 你 会 一 次 又 一 次 地 按 顺 序 执行 这 些 步 又 ， 很 
快 ， 这 些 步 又 就 会 完全 成 为 你 的 第 二 本 能 。 


所 有 的 数据 分 析 师 最 终 部 会 被 打 造成 能 作出 更 好 决策 “的 人 才 ， 你 
要 学 的 束 是 在 浩如烟海 的 数据 中 洞察 匈 机 ， 作 出 更 好 决策 。 


确定 问题 


未 明确 ”确定 自己 的 问题 或 目标 就 进行 数据 分 析 就 如 同 未 定 下 目的 
地 就 上 路 旅行 一 样 。 

当然 ， 您 可 能 会 磁 到 一 些 有 意思 的 现象 ， 有 了 时 还 可 和 
去 地 撞 上 点 好 东西 ， 但 是 ， 谁 会 说 你 将 有 所 发 现 ? 

见 过 长 达 百 万 页 、 图 表 不 计 其 数 的 分 析 报 告 吗 ? 


偶尔 ， 分 析 师 的 确 会 需要 几 百 张 纸 或 一 小 时 的 幻灯 片 来 阐述 一 个 观 
上 护 ， 但 如 此 一 来 ， 分 析 师 常常 不 够 注重 ”自己 要 解决 的 问题 ， 他 们 抛 给 
别人 一 些 信息 ， 借 此 推 色 自己 解决 问题 和 建议 决策 的 义务 。 


有 时 情况 更 糟糕 : 问题 根本 没有 确定 下 来 ， 而 且 分 析 师 不 想 让 别人 
意识 到 他 只 是 在 数据 中 兜 轿子 。 
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没有 目的 地 的 旅程 





有 目的 地 的 旅程 


兮 析 报 寺 。 


这 是 一 集 莱 菇 的 
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题 ? 


问 


确定 


你 如 何 


客户 将 帮助 你 确定 问题 


客户 是 分 析 结 果 的 服务 对 象 。 你 的 客户 可 能 是 你 的 上 司 、 你 所 在 公 
司 的 首席 执行 官 ， 或 甚至 就 是 你 本 人 。 


客户 将 根据 你 的 分 析 作 决策 ， 你 需要 尽量 从 他 那里 多 了 解 一 些 信 
上 县， 才能 确定 问题 。 

本 文中 这 位 首席 执行 官 想 提 高 销量 ， 但 这 只 是 最 初 答案 。 你 需要 更 
多 更 确切 地 措 清 他 的 心思 ， 才 能 拟定 一 个 能 够 解决 问题 的 分 析 方 案 。 

















要 是 体能 想 出 提高 狐 洁 
赵强 傈 诅 霜 销量 的 办 法 ， 
就 给 你 发 奖金 ， 







这 位 就 是 首席 执行 官 ， 
你 是 在 给 这 家 伙 做 事 ， 


的 胡 之 二 吗 . 玫 三 了 洛 工 六 云 了 他 
牛 当 了 和 或 直下 了 信也 记忆 和 用 事 党 

EE 时 标 衬 弘 计 于 活 记 

上 当 了 笠 术 不 关 了 外 刁 世 蓝 沪 本 闷 物 三 -过 

己基 司 塌 或 日 过 站 可 常识 有 二 从 析 














世上 没有 伊 问 题 


问 : ”我 总 是 在 数据 里 锦 来 儿 去 。 您 是 说 我 得 先 在 脑子 里 有 些 特定 
的 目标 ， 才 能 哪怕 只 是 过 一 眼 我 的 数据 ? 


答 : ” 没 必要 先 在 脑子 里 形成 问题 才 去 浏览 数据 。 但 要 记 住 ， 仅 仅 
0 并 不 是 数据 分 析 。 数 据 分 析 总 的 来 说 就 是 认 清 问题 ， 以 及 继而 
解决 问题 。 


问 : ”我 听 说 过 探索 性 数据 分 析 ， 就 是 从 数据 中 找 出 一 些 可 能 想 进 
一 步 进行 评 住 的 扩 于 。 这 种 数据 分 析 方 法 中 并 没有 什么 “问题 确定 ” 步 
又 ! 

答 : ”确实 有 这 种 分 析 方 法 。 在 探索 性 数据 分 析 中 ， 问 题 就 是 要 找 
到 一 些 值得 进行 测试 的 假设 条 件 ， 这 完全 是 个 具体 问题 。 


问 : ”很 好 。 给 我 多 讲 讲 对 自己 的 问题 不 其 了 解 的 客户 吧 。 那 种 人 
也 需要 数据 分 析 师 吗 ? 


答 : 当然 ! 


dy 














问 :” 听 起 来 似乎 那 种 人 更 需要 专业 帮助 。 


答 : “的确 如 此 ， 优 秀 的 数据 分 析 师 帮助 客户 思考 自己 的 问题 ;他 
们 不 会 等 着 客户 告诉 他 们 该 做 什么 。 要 是 有 人 能 够 癌 客 户 指出 他 们 坚 无 
察觉 的 问题 ， 客 户 会 真心 减 意 地 感谢 此 人 。 


问 :” 听 起 来 挺 傻 。 谁 想 多 搞 出 些 问题 ? 
答 : ”聘用 数据 分 析 师 的 人 认为 ， 具 备 分 析 技能 的 人 能 够 改善 他 们 


的 业务 。 有 些 人 把 问题 视 为 机 会 ， 而 癌 客 户 指出 如 何 发 现 机 会 的 数据 分 
析 师 则 能 让 客户 最 得 葛 争 优势 。 





动 动笔 
总 体 问题 是 我 们 需要 提高 销量 。 为 了 更 好 地 摸 清 这 位 首席 执行 官 的 
真正 意图 ， 你 想 问 这 位 首席 执行 官 什 么 问题 呢 ? 写 出 5 个 问题 。 


人 OOe@ 


Acme 公 司 首 席 执 行 官 给 了 你 一 些 反 馈 
这 份 邮件 对 你 的 问题 进行 了 答复 。 其 中 有 很 多 知识 点 


你 提出 欧 间 是 
写 和 处 与 紫 褒 同 . 


























党 和 所 大 &crne 人 化妆品 公司 首 原 拟 行 它 
法 况 一 春 册 让 首 均 扫 行 官 确 。 | 收 件 信 : Head First 
由 你 画 才 匠 日 反 的 直 世 绷 问 ， | 主题 到 各; 识 汇 友人 
\ 依 项 接站 齐 报 育 名 2 


\ 
a 我 内 下 :| 锁 量 二 新 加 利 EE 标 性 ， 郊 中 以 在 表格 皇 厂 到 这 个 月 
标 仁 ， 我 化 让 有 的 系 符 卑 中 近 照 这 个 中 标 值 击 定 拘 ， 训 录 法 
we 木 齐 日 千 以 ， 我 信访 安 有 六 刀 。 
允 和 交流 问 “是 当 沙 ”他 你 蚁 
各 着 日 标 和 确信 遇 点 直到 生化 。 
| 壤 ， 想 办 河中 如 的 事 。 不 过 筑 形 示 要 让 来 多 的 人 买 夹 才 的 产 


您 觉得 我 们 家常 才能 本 到 宇 ? 


品 ， 我 订阅 的 “人 1 是 于 岁 出 头 的 消 记 消 绕 去 111-15 风 1 < 
\ 恰 们 至 通过 对 这 样 那 洋 的 产 剖 癌 行 市 场 营销 来 页 恋 包 量 。 学 
入 是 数据 人 才 ， 朴 帮 示 运 ! 


舍 党 得 和 量 标 疡 名 少 是 可 行 的 ? 性 标 竺 时 会 理 中 ? 


昌 


2 
3 本 


这 苦 坟 妇 治 香 冯 于 头 客 状 一 一 做 慰 碍 的 工 线 ， 贫 丹 过 物 叭 苍 
等 等 
站 网 咨 产 访 烛 站 ， 他 一 证 我 缠 ， 通 这 庙 轨 站 其 铺 织 污 超 强 深 深 需 ， 销 且 可 以 村 殷 衣 上， 
入 关心 意象 汉 六 hones RR 
Ei 我 们 的 元 争 允 于 销量 去 1 何 ? 

| 

| 我 没 村 辟谷 的 数 字 ， 旧 本 我 即 旬 中 化 们 打算 划 过 枚 们 。 我 入 
说 点 的 的 保 沁 路 总 疲 必 要 让 我 科 高 E03% -100 的 。 


凡 划 们 喜 拉 六 到 广告 于 冯 网 络 基 消 优 秆 是 扎 么 四 事 ? 


上 我 门 正在 芝 计 一些 帮主 段 ， 总 这 节 示 贡 一 个 月 收 六 的 20 入 = 
过 志 这 笔 坑 符 全 部 有 同 在 广 去 上 ， 电 起 们 有 在 会 作出 一 符 用 
二 社 兴 允 阁 上 。 蜗 是 广告 崎 一 直 浙 持 这 今 水 六 ， 找 其 不 黎 械 守 
有 什么 污染 。 


时 才 S 问 吧 | 2 











把 问题 和 数据 分 解 为 更 小 的 组 其 


数据 分 析 的 下 一 步 束 是 把 从 客户 那里 了 解 到 的 问题 和 手头 的 数据 放 
Go 级 的 小 问题 ， 让 它们 在 分 析 时 发 挥 最 





将 大 问题 划分 为 小 问题 
你 需要 将 问题 划分 为 可 管理 、 可 解决 ”的 组 块 。 你 面 对 的 问题 常常 
含糊 不 清 ， 例 如 : 
< 我们 最 蚜 罗 党 户 关 世 我们 编 种 们 什么 ?> ” 
“我 们 如 何 提 高 销量 ? ” < memer oe ” 
“我 们 的 广告 信 得 怎么 笠 了 ? ” 


UL 回答 中 回 题 ， 解 当头 问题 


你 无 法 直接 回答 大 问题 。 但 是 ， 通 过 回答 从 大 问题 分 解 ”出 来 的 小 
问题 ， 你 就 可 以 找到 大 问题 的 答案 。 
将 数据 分 解 为 更 小 的 组 块 


数据 的 处 理 也 是 如 此 。 人 们 无 意 告诉 你 你 所 需要 的 精确 答案 的 量化 
值 ， 你 必须 自己 提炼 重要 的 因子 。 


如 果 你 拿 到 的 是 汇总 情况 ， 就 像 Acme 给 你 的 那些 数据 ， 你 就 会 想 
知道 哪些 因子 对 你 至 关 重 要 。 


如 朵 你 拿 到 的 古 原 始 数 据 表 ， 你 就 RM 
计 . 


;风流 行 入 总 ， 计 数据 而 古 身后 会 详细 解释 这 
Je De pon 
2 9 WY 这 | 


明 10 月 11 12 | 可 2 月 
冲销 各 ss526n0mna | 55501n000 | s54690m | 554n0000 55533000 | 355554900 
目标 销 嫩 55280000 | 5550n0n000 e7200m ~ $595a000 | 5$6217000| 56 476 nn 


FB i 
社交 两 络 费 105600 | 531550 | $329000 | $739200| $739200 


单价 [等 售 司 】 $2 $2.00 | SU $1.90 | sS1.99 $1.90 











这 些 可 能 就 是 你 
12 月 目标 销量 $5 968 000 人 
要 查看 的 组 块 . 


11 月 单价 $2.00 -| 


让 我 们 给 分 解 工作 来 个 特写 .…… 





现在 再 来 看 看 了 解 到 的 情况 


让 我 们 从 数据 开始 。 你 手头 有 一 份 Acme 销 售 数据 汇总 ， 符 试 分 解 
最 重要 因子 的 最 好 起 步 办 法 是 找 出 高 效 的 比较 因子 。 


找到 感 兴趣 的 比较 对 象 ， 分 解 汇 总 数据 。 


“站 瞪 记 总 物语 司 = 月 倍 梧 总 精 量 机 上 应 与 ， 


0 司 共 贡 意 炎 量 互 目 扩 末 硬 疝 比 各 名， Ya 
和 


可 
280500 #5501000 | 向 DO | SS5 DO | 5553300N | 53554 0 
部 有 让 
广 音 怪 $1 0565 000 395 总 400 | ?73 2 | Dd 3316 Be $316 Bers 
30 0 | | 730 209 
2.00 52.00 1. $1.90 
1 









中 几 人 高 相 襄 灾 入 ? Se 


革 必 前 省 售 访 臣 前 言 的 灾 站 一 斤 证 i 
进行 有 效 的 比较 是 数据 分 析 的 核心 ， 本 书 通 篇 都 在 讲述 这 个 工作 。 


在 这 个 案例 中 ， 你 想 通 过 比较 各 项 汇总 数据 在 脑子 里 形成 一 个 概念 
， 即 Acme 公 司 的 貌 洁 超 强 保 湿 箱 业务 是 如 何 开展 的 。 





9 
你 已 经 确定 了 问题 : 想 出 提高 销量 的 办 法 ”。 但 通过 这 个 问题 几乎 


ee 于 是 你 从 首席 执行 官 那 里 搞 到 了 大 量 有 
JJ 百 化 。 


这 些 言 论 给 出 了 关于 如 何 开展 化 妆 品 业务 的 重要 基准 假设 ”。 布 户 


首席 执行 官 关 于 这 些 假设 的 看 法 是 正确 的 ， 因 为 它们 将 是 分 析 的 基础 
! 首席 执行 官 的 论点 里 最 重要 的 有 哪些 呢 ? 








一 = 
类 千 人 -Acme 北 太 避 前 既 扫 生 它 
区 性 入 ，Hasd 让 
E27 坟 浊 | 澳 二 门 由 
企 人 四 产 副 执 误 乡 全 
Er 从 和 ， 如 工 愉 万 杜 榴 汪 看 





户 友 信 才 杜 放 |， 入 人 后 区 以 所 弥 从 轴 次 中 B* 
秆 确 迪 条， 如 丸 直 不 车 上 后 和 让， 其 ] 习 人 有 演 粳 ， 





这 是 一 此 您 尊 相 六 门 滞 样 十 修 办 列 革 ” 
相关 癌 蚌 珊 。 如 水 志 量 由 的 事 。 天 这 生 才 是 村 由 村 要 李 


的 产品 ， 深 订 记 物 “人” 避 十 出 多 ee 
寺 有 11-"5W :> 内 和 要 省 :小 对 这 Pe 
人 让 + 市场 请 六 广 沁 全 作 忠 i 六 ， 王 个 刁 
od 
次 并 可 六 人 条 愉 革 公 入 江村 古人 和 家 写 个 怪 光 记 








i 
及 扒 ， 卫 这 开门 接 出 各 站 如 全 党 轴 避 可 
a 失控 下 


区 们 外 记 人 对 于 全 是 50 了 > 
八 入 放 世 专人 种 凋 ， 伺 讶 列 志 家 由 他们 拉 竹 洱 


下 我 省。 我 杂交 下放 的 未 得 铭 吕 筷 入 于 此 疏 们 产 
535%% -130 包 。 
三 扎 相 计 交 网 党 千 宁 顶头 录入 之 正 地 人 
这 个 斌 论 示 笨 就 是 一 pl 让 一些 而 于 用 ， 委 全 村 这 守 一 人 毛发 六 交 


ey 村 去 人 入 和 核 万 之 肆 党 产 厂 阅 一 ， 工区 也 存 二 
类 数据 . ji ee 


id > yn 此 入 二 三 奖 间 沁 上 里 全 三 竺 狼 二 村， 
A 5 en 民有 R 不 统 志 闪 开 认 洁 尖 


动 动笔 











根据 你 所 得 到 的 分 析 数 据 ， 总 结 一 下 客户 确信 无 疑 的 观点 以 及 你 的 
想法 。 分 析 以 上 邮件 和 你 的 数据 ， 将 它们 分 解 为 能 够 描述 你 的 现状 
的 更 小 的 组 块 。 


宪 户 蚀 生 并 舌 为 上 点 你 对 数 章 鸭 栋 法 


清点 一 下 你 和 客户 确信 无 疑 的 观点 。 你 发 现 了 什么 ? 


信号 明 符 妇 可 般 
客 岂 击 汪 元 不 的 弄 凡 由 壶 予 室 ， 


移 。 恋 洁 蕊 加 坏 各 壳 山 良 叶 才 生父 守 吾 阁 年 年 的 水 二 【及 性 到 荐 1T-15 风 】.。 蚁 们 基 棕 二 生 叭 
一 了 鹏 消 查 竹 ， 





说 在 六 作者 这 必 傣 ， 


本。 访 们 首 出 产品 在 少女 这 盘 有 中 的 销售 尘 力 是 天 限 盈 ，，，， 
四 4" 的 竞争 对 手板 吃 强 玉 ， 





你 对 数据 的 想法 


os 


一文 汐 贡 
二 


ac 


4 一 秆 于 六 他 天 谍 攻 它 六 
eds 


; 关 广 是 对 名 对 伍 此 租 水 进 
oleh 有 问号 际 净 评 计 了 了,…… 
马刺 小 、 妆 吕 苦 寿 陨 并 二 


评估 组 块 


好 戏 上 场 了 。 你 知道 需要 想 办 法 ， 你 知道 
一 点 。 现 在 ， 和 仔细 、 专 注 地 看 看 这 些 组 块 ， 形 成 自己 的 判断 。 





正如 分 解 时 一 样 ， 





首 哪 些 数据 组 块 能 让 你 做 到 





评估 分 解 组 块 的 关键 就 是 比较 。 


前 过 对 这 些 因 子 进行 相互 比较 ， 你 看 出 了 什么 ? 


计 对 问题 的 疯 冶 许 果 册 


姑 污 二 旺 涯 涅 具 门 河 冉 坦 芷 六 十 总 二 三 生 的 
党 吝 消 当 考 | 具体 有 是 11-15 千 ，，。 部 作 所 本 
上 号 啡 一 多 ;3 当 守 车 入 。 

APmE 正 亡 生 证 拉 加 高 才 沪 属 社 芷 网 阁 革 广告 
莫 ， 沾 旋 尝 为 上 ， 新 佑 运 且 和 否 起 起 当 来 可 旨 。 


注 们 着 作 产 画 和 注 丈 训 消 些 主 可 中 的 请 攻关 贞 

泉 六 隐 的 。 

点 GEmES 的 况 扫 者 也 广大 陪 - 
丈 
| 
有 

和 
站 
下 
Fi 
把 内 一 下 | 


抽 息 芽 村 国 二 ， 始 出 


证 省 王 计 了 村 


误 节 旨 庶 站 持 

Ee 

2 日 供 的 请 加 全 二 车 3 日 样 的 诊 旦 相 世 
覆 误 二 着， 得 尚 置 河 直 。 


销 帅 与 三 蒜 相 去 共 运 。 


百 米 噬 信 元 鳃 于 局 忆 达 蒜 。 


讲 球 器 用 亏 带 全 车 咱 arma 的 祖 孟 法 村 


旨 本 总 


你 几乎 拥有 所 有 合适 的 组 块 ， 唯 独 缺少 重要 的 一 块 .……. 


分 析 从 你 介入 的 那 一 


让 自己 介入 分 析 的 意思 是 作出 自己 的 明确 假设 


用 为 自己 的 结论 打赌 。 





刻 开 始 


， 并 且 以 自己 的 信 


无 论 你 正在 构建 复杂 的 模型 还 是 在 作 人 简单 的 决策 ， 数 据 分 析 就 是 你 
的 一 切 : 你 的 信念 ， 你 的 判断 ， 你 的 信用 。 


不 和 让 入 





给 你 带 来 的 好 处 
宁 特 知道 梁 在 烙 扫 中 发 所 广 么 ， 
袍 属 各 条 作出 让 类 为 站 论 ， 


汗 将 对 工 睹 度 上 记 评 ， 





放生 


弧 你 带 来 的 坏处 
你 将 万 藻 记 关东 次 2 汪 荐 何 呆 你 巧 芝 
ee 


和 成为 济 芝 区 任 纪 局 大 ! 


在 撰写 最 终 报告 的 时 候 ， 
结论 出 自 何 处 。 


又 要 你 六 去 折 安 忆 折 法 学 
殉 自 己 ， 并 区 总 下 可 沛 科 ， 
1 
| 
i 





给 客户 带 来 的 好 处 
寄 户 林 更 章平 大 乔 娄 断 . 


间 乒 本 理 性 到 在 剧 归 断 北 吉 己 形 医 肌 ， 











给 客户 带 来 的 坏处 


客站 特 不 会 入 位 定 的 好 杂 ， 因 为 但 不 姑 
遂 称 的 到 上 和 副 力 : 


窜 巡 下 咎 会 一 生 帘 现 的 外 党， 用 变 职 从 


流 店 出 往 ， 


~ 到 叶 从 区 起头 入 这 乔 河 次 到 . 


一 定 要 提 到 你 自己 ， 这 样 客 户 才 知道 你 的 





提出 建议 


作为 数据 分 析 师 ， 你 的 工作 就 是 让 自己 和 客户 仔细 研究 你 对 数据 的 
评 佑 ， 洞 察 先 机 ， 从 而 有 能 力作 出 更 好 的 决 集 。 








除非 将 考 析 邢 记 衣 于 7 
各 制定 决 采 。 花 间 
四 计 并 况 马良 计 ， 


为 了 实现 这 个 目的 ， 你 必须 将 自己 的 设想 和 判断 以 合适 的 格式 整合 
起 来 ， 供 客户 挡 取 。 

也 惑 是 说 ， 你 的 作品 要 能 简单 则 简单 ， 但 不 可 简单 过 头 ! 你 的 工作 
是 确保 自己 的 意见 传达 到 位 ， 让 人 们 根据 你 的 意见 作出 正确 的 决策 。 


你 提交 给 客户 的 报告 要 以 得 到 客户 理解 、 鼓 励 客户 以 数据 为 基础 作出 
明智 的 决策 为 重点 。 





动 动笔 


看 看 你 在 前 面 几 页 搜集 到 的 信息 。 


你 建议 Acme 如 何 提高 销量 ? 为 什么 ? 





报告 与 好 了 


这 委 疡 们 一 揽 维 
以 贰 开机 本 官 弄 
里 者 利 上 将 持 - 


& 


一 


这 是 伺 蔚 分 
ai 


i 


你 的 千 褒 可 
能 与 这 处 入 





Acme 化 妆 品 公司 
分 析 报 告 


背景 


能 洁 超 直 估 记 弟 的 客户 在 业 妆 消费 者 “ 兵 涉 总 11-13 约 ) 。 她 
们 落 林 上 基 蛤 一 的 客户 痢 。Acme 王 在 党 认 均 其 让 和 干 扩展 社交 


园 阁 的 六 告 营 、 但 迄今 拓片， 这 个 新 做 记 总 可 或 矶 尚未 可 弛 | 


我 们 疹 十 产 癌 在 少 鼠 宵 费 音 中 的 赃 亿 漆 几 巨大 。gimnc 的 竞 务 
村 和 手 根 为 芳 附 ， 


数据 解说 


月 众 准 锁 星 与 上 待 9 月 份 
相 比 圈 有 谱 长 、 仿 角 品 持 
平 。 销 量 与 月 标 相 去 蕊 入， 
辣 鲜 广告 些 开 二 伦 会 彩 盘 
Acme 愧 销 从 达 补 兹 力 。 隆 
价 看 米 无 甚 丁 销量 达标 :。 


至 议 


| 销 最 用 对 日 标 下 降 可 能 与 ! 邯 帆 相对 以 前 的 广告 蔓 开 降 在 天 


没有 完 分 的 证 撕 计 我 们 相 管 社 芝 版 茹 让 迁 尼 和 妇 示 们 所 感 取 徐 
成 功 。 我 将 拒 广 告 休 划 苛 划 整 芭 9 月 的 本 中 ， 在 后 少妇 消融 者 
是 去 有 反 必 ， 针 对 少女 消费 者 骸 广 告 是 让 总 销 秸 额 重新 达 天 
铀 售 有 目标 的 手段 ， 





在 并 告 中 加 下 才艺 和 客户 
蚁 息 斌 各 个 示 独 的 未 攻 ， 


及 莘 单 访 旭 形 评 
说 让 己 的 千 巷 ， 


首席 执行 官 欣 贫 你 的 工作 











秆 得 时， 入 完 全 彼 说 服 了 ， 闲 立 齐 训 
下 订单 旬 投 产 告 ， 移 近 不 及 待 地 妨 知 
通 千 采 ， 





你 的 报告 简 炼 、 专 业 、 直 截 了 当 
本 报告 说 清楚 了 首席 执行 官 的 需求 ， 甚 至 比 首席 执行 官 本 人 说 得 更 消 
AEo 














你 审视 数据 ， 通 过 衣 席 执行 官 把 事情 并 得 更 明白 ， 把 首席 执行 官 确 
信 的 观点 和 你 上 自己 对 数据 的 理解 相 比 较 ， 然 后 提出 诀 策 建议 。 


干 得 好 ! 
你 的 建议 将 给 Acme 的 业务 带 来 哪些 影响 ? 








Acme 的 销量 会 上 升 吗 ? 


一 则 新 闻 


表面 上 看 起 来 是 一 
篇 正 面 拔 道 。 


所 








驶 洁 保 湿 霜 在 
少女 消费 者 市 
场 完 全 饱和 


锅 我 殷 化 站 品行 灶 锤 站 分 
桂 师 报告 ， 少 女 消 费 者 保 
湿 窒 市 场 已 刀 完 补 被 Acme 
公司 保湿 稻 捉 舰 产 中 “加 
洁 ” 目 据 ， 据 《数据 二 商 
劳 有 时报》 调查 ，954 的 水 
座 请 费 者 称 “ 非 常 王 丝 ” 
使 用 夫 洁 保 沪 玉 ,， 通常 千 
太 虎 次 以 上 ， 

当 我 准 记 者 告诉 Acrme 首 席 
搞 行 寡 这 个 调 仓 络 果 时 ， 
他 非 堂 停放,“ 我们 承诺 以 


数据 者 高 务 时 报 


季 动 近 人 的 价格 获 少 女 清 
沉 汶 节 夺 华 的 保 湾 体 验 ”， 
他 沈 ,， “每 知 靳 洁 在 少女 消 
党 者 中 如 寺 走 并 我 殷 高 兴 ， 
锅 望 所 后 出 我 们 甬 黎 撕 分 
新 部 门 告 诉 我 这 些 消息 ， 
而 趟 是 报社 。” 

Acms 在 市 所 上 的 实际 况 刍 
对 平一 一 竞争 先 妆 品 公 司 
回应 了 记者 采访: “我 
菇 本 上 已 经 括 出 了 少女 请 
费 者 市 场 。 我 们 雇 米 找 乱 
市 场 的 少妇 消 费 者 受到 了 
朋友 们 的 瑚 笑 ， 因 为 据说 
使 用 子 康 价 ， 低 档 的 产品 。 
太 花 品 前 术 强 了 ， 和 他 们 





表面 上 来 这 对 Acme 是 


个 好 消 轧 ， 但 是 ， 


投 广 告 可 能 就 不 会 有 太 大 效果 。 





竞争 是 在 浪费 营销 费用 。 
兰芝 保护， 给 议和 窜 来 个 打 
击 ， 比 刻 ， 计 他 人 的 代 幸 
入 在 统 潜 里 被 填 到 …… 

















人 这 对 你 的 分 入 
叶童 义 吗 ? 


如 果 市 场 已 经 饱和 ， 再 多 










齐 妈 我 接 到 了 这 个 
电话 .我 取消 了 岁 女 庙 费 
者 市 场 广告 。 马 上 和 输 我 再 挤 
一 个 有 用 胸 方案 吧 ， 







很 难 想象 少女 消费 者 市 场 广告 会 有 效 ”。 要 是 绝 大 部 分 少女 消费 者 
每 天 都 用 貌 洁 保湿 箱 ， 而 且 用 两 次 以 上 ， 销 量 还 有 机 会 所 高 吗 ? 


你 需要 寻找 别 的 机 会 提高 销量 ， 但 首先 需要 搞 清 楚 你 的 分 析 有 何 差 
池 。 











考 考 你 


你 在 分 析 过 程 中 得 到 了 一 些 错 误 的 或 不 完整 的 信息 ， 使 你 对 上 述 有 关 
少女 消费 者 的 情况 把 握 不 准 。 是 哪些 信息 不 完整 呢 ? 





首席 执行 官 确 信 的 观点 让 你 误 入 歧途 
这 是 首席 执行 官 嘴 里 的 貌 洁 销售 情况 : 


首席 执行 官 确信 的 航 千 销售 情况 


洁 起 党 保 浊 仿 的 洗 费 才 是 外 二 立 落 和 华 的 伙 立 消费 阁 【 芭 沪 况 是 
11-45 中 1] - 姓 习 在 本 上 是 忆 一 的 消费 扯 


匠 Eie 丢 固 下 新 分 配 ， 告 灌 和 社交 网 涝 谍 ， 写 永 邻 为 小 ， 这 个 鞍 兴 澳 


本. 
拒 们 看 山 产 品 克 汪 支 消费 考 口 门 销 耸 洪 峭 是 上 大全。 \ 
AN 
Acmecl5 碍 后 对 于 松 为 站 辽 。 各 











看 看 这 些 确 信 观 扣 与 数据 的 吻合 情况 ， 二 者 一 致 还 是 矛盾 ?所 描述 
的 内 容 有 差别 吗 ? 





日 司 1m 月 们 月 1z 月 1 月 2 月 
总 销 虽 55 280080 | S5501000 | $5455000| 554350000 | $5533080 | 5555000 
目标 畏 虽 $5 ZO0000 | S5500000| S5725000| 55058000| 217000 | S6475 000 
广告 四 $1 9056 DO 5950400 $773 0 $328 DO #315 900 $316 Son 
社 充 网 站 峰 | 加 $105 S00 $216 go0 #529 000 733 200 £730 200 
单价 《每 性 司 1 | 经 52.00 $0 51.00 17,80 51.a0 


数据 没有 盯 现 省 玄 消 费 者 市 场 肥 性 条 情况 ， 他 竺 江 
下 训 计 器 诈 基 计时 的 晶 一 国 江 宣 ， 而 日 省 世 计 上 省 广 兴 


站 有 让 A 昌 汪 
a 时 法 HH 名 汪 | .本 I 和 看 于 上 沁 靖 问 后 ; 性 司 证 证 各 朝 评 


一 一 一 一 上 用 于 其 臣 鹤 确信 让 入 生 讽 训 。 
筑 阅 对 癌 亚 了 业 总 ， 
| 


过 
名 





你 对 外 界 的 假设 和 你 确信 的 观点 融 是 你 的 心智 模 
| 


在 这 个 案例 中 ， 心 乔 模 型 带 来 了 问题 ， 如 采 新 闻 报 着 是 真实 的 ， 那 
么 首 记 执行 官 天 于 少女 消费 者 市 场 的 确信 观点 就 是 错误 的 ， 而 这 些 确信 
观点 正 是 你 用 来 解释 数据 的 模型 。 


现实 世界 非常 复杂 ， 因 此 我 们 用 心智 模型 ”来 理解 现实 。 你 的 大 脑 
0 
新 言 轧 .。 


心 乔 模 型 可 能 是 一 些 与 生 俱 来 的 先天 隶 赋 ， 也 可 能 是 后 天 学 会 的 理 
论 ， 不 管 是 哪 种 情况 ， 都 会 大 大 影响 你 对 数据 的 解释 。 

















心 其 模型 就 是 其 中 网 种 种 工具 ， 


只 要 有 新 信息 进来 ， 厌 脑 就 会 拿 
出 一 个 工具 利用 这 个 新 信息 ， 











未 是 说 讲 数据 分 析 吗 ? 怎么 
密 成 讲 思维 了 ? 是 未 是 访 叫 
数据 模型 ? 





心 符 模型 有 时 助 瘟 良 多 ， 有 时 带 来 及 烦 。 本 书 束 是 你 妥善 利用 心智 
模型 的 速成 班 。 


重 中 之 重 是 明确 心智 模型 ， 并 且 像 对 竺 数据 一 样 严 肃 认 真 地 对 行 
心 乔 模型 。 


务必 尽量 明确 你 的 心智 模型 。 


统计 模型 取决 于 心智 模型 
心智 模型 决定 你 的 观察 结 素 ， 是 你 观察 现实 的 校 镜 。 





你 的 属 阔 模型 恰似 现 
家 规 实 世 界 网 楼 镜 . 





你 无 法 看 到 一 切 ， 因 此 你 的 大 脑 必须 做 出 选择 ， 以 便 集中 注意 
力 ， 这 融 是 所 谓 的 心智 模型 大 大 决定 观察 结果 。 





-- 牺 心 荐 社 型 健 计 你 这 高 列 一 种 心 乱 祝 型 条 让 称许 
外 罪 蛤 -- 司 特 竺 "…… 间 到 外 看 哆 部 一 此 特点 


上 
| 
~ C9 4 SN。 2 了 
四 
二 ) 
这 是 填 界 胰 
-" 芒 羡 他 r 
LL 


本 \ 
上 计 输 意 翅 未 济 som 


省 到 样 ! 


如 果 你 了 解 ” 上 自己 的 心智 模型 ,那么 你 发 现 重 点 、 开 发 最 相关 最 有 
用 统计 模型 的 可 能 性 就 更 大 。 


你 的 统计 模型 取决 于 “你 的 心 镶 模型 ， 如 果 用 了 错误 的 心智 模型 ， 
分 析 束 会 胎 死 腹 中 。 


最 好 使 用 正确 的 心智 模型 ! 











让 我 们 再 次 审视 这 些 数据 ， 想 一 想 ， 有 没有 其 他 的 心智 模型 适合 这 
些 数据 。 


1 月 1 月 | 12 月 4 月 前 
总 胃 量 $280000| 85501000D 33969000| 55490p00 3523000| #5554000 
$5 280000| S5500000 #3729000| S535800m $6217000| 站 475000 





$1 Ts De 9 本 $4 30 #538 OOO 41 HED 1 太吉 
3749 200 
单价 | 等 坪 司 ) 2 $2,00 $0 $1.90 3120 $00 


团 ” 列 出 一 些 假设 情况 ， 若 貌 洁 保湿 霜 的 确 是 少女 消费 者 喜爱 的 
润 肤 品 ， 则 假设 成 立 。 


家 逻 和 作 胸 介 进 为 ! ~ 
| 








圆 ” 列 出 一 些 假设 情况 ， 若 貌 洁 保湿 霜 处 于 在 竞争 中 失去 顾客 的 
危险 境地 ， 则 假设 成 立 。 








你 刚才 用 新 眼光 观察 了 汇总 数据 。 不 同 的 ”心智 模型 该 如 何 与 之 契 


合 呢 ? 


5 月 10 月 11 月 位 月 1 周 2 月 
总 钠 时 $5 ZB OD 3 501 onn m5 4 oD $5 60 on $5 333 D000 $n 
忆 标 负 量 5 2 53 500 wn 593729 V0 5 OB S0217 Do EL 生 


广告 贤 $1 OSE C00 i i W200 528 000 315 800 5313 六 
福 变 加 的 惨 30 $103 00 S31 2m S52 DD Sa 3 20 


单 御 1 和 相关 司 ) 2.00 HH S200 S|. $ | .3 $1, 
加 ” 列 出 一 些 假设 情况 ， 若 貌 洁 保 湿 霜 的 确 是 少女 消费 者 喜爱 的 
润 肤 品 ， 则 假设 成 立 。 
光 具 消费 者 员 东 招 所 丰 俘 温 有 所 外 者 纷 了 独 训 
”Ame 壳 要 下 发 新 六 多 汉人 这 过 市 场 才 刍 拒 高 销量 
汪汪。 家 入 体 流 害 介 有 区 笋 丙 完 对 下， 宏 是 交合 入 最 皇 六部 


\ 社 云 隅 烙 是 习 前 售卖 产 防 蚊 经 济 有 有 吾 珊 方 知 ， 


一 少 业 消 细 者 晤 总 在 保 闻 痊 上 花 亚 多 的 钱 ， 





园 ” 列 出 一 些 假 设 情况 ， 若 貌 洁 保 湿 霜 处 于 在 竞争 中 失去 顾客 的 
危险 境地 ， 则 假设 成 立 。 


eri par he NN 

kd ht st TE 
et 
刘 囊 ，。 社 剑 刚 绍 营 钙 是 个 现 表 润 ， 哉 们 需要 滞 扳 广告 询 避 各， 

所 高 谢 洁 的 价格 特 损失 市 场 情 领 ， 


PET 


入 庆 记 可 着 第 全 条 仿 交 心 呈 扩 开间 不 匠 寿 ， 息 拘 必 和 
型 中 嘲 可 能 景 重 记 妨 圳 分 臣 实 电 是 军 常 保良 ……- 


| 各 | 











心智 便 型 应 当 包 括 你 不 了 解 的 因素 


一 定 要 指出 不 确定 ”因素 ， 只 要 能 明确 不 确定 因素 ， 你 就 会 小 心 防 
范 并 想 办 法 填补 知识 空白 ， 继 而 提出 更 好 的 建议 。 


考虑 不 确定 因 系 及 请 点 会 让 人 感觉 不 爽 ， 但 回报 显著 。 这 种 “ 反 
但” 方法 会 揭示 出 未 知 信息 ， 而 不 是 已 知 信息 ， 例 如 ， 你 要 雇用 一 个 舞 
蹈 家 ， 他 不 会 跳 的 舞 可 能 比 会 跳 的 舞 更 让 你 感 兴趣 。 








Head First 反 查 表 


我 所 没有 的 经 历 : 
二 波 薄 
A 人 学 [ad 
沉沉 痛苦 


蛤 特 行 千 


Se 外 下 
我 不 知 着 的 事情 ， 


加 肝素 前 50 们 迷 


我 今 大 用 千 记 提 了 链 少 分 钟 电话 
生命 弹 丰 多 


人 人 们 标 往 在 启用 职员 
后 才 改 规 他 们 有 了 些 事 我 不 知道 该 在 么 做 的 事情 ， 
可 时 地。 做 法 式 面世 
路 怡 怡 羡 
唱 吉 全 
我 没 读 过 的 书 : 
¢ 红 宰相 


上 训 案 尺 冶 闻 





数据 分 析 也 是 如 此 ， 了 人 解 自己 的 知识 缺陷 非常 重要 。 
未 雨 绸 痛 方 能 防备 不 测 风云 。 


动 动笔 


为 了 搞 清 楚 首 席 执行 官 不 知道 的 事情 ， 你 会 问 哪些 问题 ? 
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首席 执行 官 承 认 目 己 有 上 所 不 知 


一 





烷 性 人，Aeme 和 兹 妆 品 公司 首席 块 千 宫 
发 件 和 A :Head First 
i 着 回 和 芝 ” 符 坛 不 策 定 于 索 


关于 苏 洛 保 汤 元 的 镍 车 ' 革 总， 你 觉 笃 自 己 在 哪 志 而 最 被 过 了 般 ? 让 富 户 并 此 素 
十 ， 拉 外 新， 
强 ， 这 是 个 尚 意思 了 蕊 间 环 ， 我 总 大 党 得 绽 们 及 堪 了 解 忘记 对 ] 


产品 的 感 逐 ， 伍 市 于 息 们 并 没 有 直接 把 产 品 买 概 洪 族 才 ， 记 si 
以 ， 往 疾 产 场 装 姑妈 销 癌 后 ;我 仁 确 实 不 知 广 沪 下 米 执 生 六。 半生 一 
帮 以 ， 关 馆 ， 我 仁 允 实 不 知道 鞠 洁 保 深 安 出 详 后 的 清 况 。 


甘于 广告 允 作 高 泣 量 为 贡献 ， 作 有 风 少 住 心 ? 


或 ， 止 并 太 寡 -应 所 说 , 一半 有 方 ， 一半 没 用 ， 且 永远 也 
不 氏 送 哪 一 兰 汞 罗 一 小 。 仁 窟 明 显 ， 岗 洁 品 牌 芷 洪 恕 者 不 阔 

es 三 一 所 7 
是 多 的 产 吕 ， 四 为 琢 污 马 其 性 侈 混 健 产 品 间 无 太太 区别 ， 所 a 2 


以 广告 是 打响 品 粕 的 关键 。 





除了 少女 消 绒 击 ， 迹 有 有 效 可 能 会 买 这 此 产品 ? 


这 我 可 云 知 交 ， 宫 元 线索 ， 四 为 关中 全 竺 租 了 ， 我 们 只 考虑 了 ES 
少女 第 纺 光 ， 我 们 各 不 扫 三 芯 地 滔 涩 鲜 群 体 。 \ 





有 肖 丰 我 党 诸 道 移 东 他 难以 排 钥 也 趟 确定 当 订 ” 


当然 用 ， 环 二 消 亚 。 你 吓 死 我 了 ， 我 子 忆 不 婉 行 自己 开关 天 了 
各 酉 党 了， 你 的 名 据 分 析 让 我 觉得 到 戏 闫 弛 此 知 其 少 。 











还 有 谁 可 能 买 貌 洁 保湿 害 ? 
除了 少女 消费 者 ， 有 其 他 买 家 吗 ? 
世上 没有 人 问题 


问 : ”首席 执行 官 最 后 一 句 话 插 搞笑: 数据 分 析 让 人 感觉 自己 所 知 
其 少 ， 这 话 不 对 吧 ? 


答 : ”这 要 看 你 怎么 对 待 。 如 今 越 来 越 多 的 问题 能 够 通过 数据 分 析 
技术 解决 ， 而 在 过 去 ， 人 们 要 靠 直 觉 来 解决 这 些 问题 。 


问 : 所 以 和 以 前 相 比 ， 心 智 模型 越 来 越 不 可 信 了 ? 





答 : ”许多 由 心智 模型 完成 的 工作 都 是 为 了 帮助 你 填补 信息 空白 
好 的 一 面 是 ， 数 据 分 析 工 具 让 你 有 能 力 以 系统 而 自信 的 方式 填补 这 些 空 
折 ， 因 此 ,“ 指 定 大 量 不 确定 因 系 ?这 一 做 法 的 目的 就 是 帮助 你 发 现 言 
点 ， 这 要 求 拥有 过 硬 的 数据 工作 经 验 。 








问 : ”但 我 非得 用 心智 模型 来 填补 “对 外 界 的 了 解 ? 这 项 知识 的 空白 
吗 ? 


答 : 确实 如 此 .……. 


问 : ”我 这 么 说 是 因为 ， 即 使 我 目前 对 外 界 的 运行 规律 了 如 指 掌 ， 
但 十 分 钟 后 外 界 就 会 变 成 妨 外 一 个 样子 。 


答 : “对 极 了 。 你 无 法 无 所 不 知 ， 世 界 总 是 在 不 断 变化 ， 这 就 是 严 
谨 地 指定 问题 并 管理 心智 模型 不 确定 因 系 之 所 以 成 为 工作 重点 的 原因 。 
你 只 有 那么 些 时 间 、 那 么 些 资源 来 解决 分 析 问 题 ， 因 此 ， 回 答 上 述 问题 
将 有 助 你 有 效率 、 有 效果 地 完成 工作 。 





问 : 通过 统计 模型 了 解 到 的 信息 能 为 心智 模型 所 用 吗 ? 


答 : ”当然 能 。 今 天 的 研究 所 发 现 的 事实 和 现象 往往 成 为 明天 的 研 
完 的 假设 情况 。 这 样 想 ， 你 不 可 避免 地 会 从 统计 模型 得 出 错误 结论 ， 人 
无 完 人 呆 。 当 这 些 络 论 成 为 心智 模型 的 一 部 分 后 ， 你 希望 它们 突显 出 
来 ， 这 样 才 能 认 明 情况 ， 以 便 在 需要 时 回头 改变 这 种 结论 。 





间 : 所 以 心智 模型 可 以 通过 经 验 进行 试验 ? 


答 : “对 ， 而 且 应 该 进行 试验 。 你 无 法 试验 每 一 件 事 ， 但 可 以 试验 
模型 中 的 每 一 件 事 。 





问 : ”如 何 改 变心 智 模型 ? 


A， 
FE 。 


你 即将 了 解 





首席 执行 官 下 令 搞 来 了 更 多 数据 ， 帮 助 你 寻找 少女 消费 
者 以 外 的 市 场 。 让 我 们 看 一 看 。 


Acme 给 你 及 来 了 一 长 串 原 始 数据 
所 获得 的 新 数据 车 未 经 过 任何 处 理 ， 即 称 为 原始 数据 。， 为 了 让 他 
人 提供 的 数据 在 你 要 进行 的 数据 运算 中 发 挥 作用 ， 几 乎 总 是 要 调节 数据 


干 万 要 保存 原始 数据 ”， 避 免 进 行 任何 数据 处 理 。 即 使 是 最 好 的 数 
据 分 析 师 也 会 失误 ， 必 须 能 够 将 自己 的 工作 结果 与 原始 数据 进行 比较 。 








资料 太 多 了 worsts 你 可 






















数据 太太 太 多 了 |! 
我 该 怎 各 办 ? 访 从 
鄂 几 开奖 ? 





放 轻 松 


数据 多 往往 是 好 现象 


在 密集 的 数据 中 锦 圈 子 很 容易 让 人 “迷路 *"”， 要 是 你 迷失 了 目标 ， 坊 
记 了 假设 ， 只 要 集中 注意 力 完成 该 完成 的 数据 处 理 就 能 扭转 局 势 ， 
优秀 的 数据 分 析 的 根本 在 于 密切 关注 需要 了 解 的 数据 。 
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练习 


好 好 看 看 这 些 数据 ， 想 一 想 首 席 执 行 官 的 心智 模型 


这 些 数据 符 


合 所 有 顾客 部 是 少女 消费 者 的 想法 吗 ? 还 是 看 得 出 有 其 他 的 消费 


者? 
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练习 解答 
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把 答 过 家 在 这 遍 ， 
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从 数据 中 看 出 什么 了 ? 首席 执行 官 " 只 有 豆 菠 年 华 的 少女 消费 者 才 
买 貌 洁 保湿 害 ” 的 想法 对 吗 ? 还 是 看 得 出 有 其 他 的 消费 者 ? 
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去 给 年 轻 的 消 费 总 野 亦 女友 化 妆 口 公司 和 人 已 公主 公司 看 来 肯定 
副 其 实 ， 可 名 单 上 还 一 渤 





深入 挖掘 数据 
要 看 的 数据 很 多 ， 但 任务 很 明确 ， 找 出 除 少女 消费 者 以 外 购买 产品 


你 发 现 了 一 家 名 叫 泛 美 批发 公司 的 公司 ， 它 是 谁 ? 谁 买 它 的 产品 ? 


Acme 





野蛮 女友 化 妆 


Wg Se 泛 美 批发 公司 
王 
销 往 销 径 





在 将 头 上 加 标 
未， 这 不法 不 错 ! 








泛 美 批 友 公司 应 Acme 的 要 求 及 来 了 这 份 貌 洁 客 户 明 细 表 。 这 些 信 
县 能 帮助 你 和 弄 清楚 谁 在 购买 产品 吗 ? 


泛 美 批发 公司 貌 洁 保 湿 霜 半年 销售 明细 (至 2009 年 2 月 ) 


四 犊 子 剃 须 品 公司 
男 用 化 妆 品 公司 


| 





号 下 从 这 些 数据 中 看 出 网 
购买 摇 洁 保温 规约 消费 省 


和 
和 
和 


练习 解答 


泛 美 批发 公司 的 销售 明细 告诉 你 古 谁 在 购买 貌 洁 你 湿 逢 了 吗 ? 
泛 美 批 发 公司 貌 洁 保湿 逢 半年 销售 明细 (至 2009 年 2 月 ) 


破 儿 胡须 保养 公司 
Haohan.com 
四 犊 子 剃 须 品 公司 


温 赴 





泛 美 批 肥 公司 确认 了 你 的 印象 


县 ， 老 时 们 得到 这 丰 品 ， 昌 说 用 路 帖 礁 揭 
东 直 泪 他们 需 点 难 的 器 ， 便 用 隶 佐 日 预后 
谍 乔 棒 极 了. 





这 恐怕 是 大 买卖 。 
看 来 ， 有 一 个 群体 在 买 貌 洁 保湿 害 ， 而 Acme 莞 还 没有 意识 到 。 
一 切 顺 利 的 话 ， 就 靠 这 个 潜在 群体 提高 Acme 的 销量 了 。 





败 客 于 他 了 ， 这 条 炒 计 可 鱼 让 我 们 同业 过 求 个 天 烽 
垣 莫 艾 吉 介 ， 能 让 我 过 一 这 丛 很 出 这 个 结论 移 过 条 


吗 7 我 们 访 起 么 利用 这 个 新 信和 点 纪 ? 





你 已 经 进入 分 析 冲 刺 阶 段 。 


现在 该 写 报 告 了 。 记 住 ， 让 客户 详细 地 浏览 你 的 思考 过 程 
如 何 得 出 这 个 看 法 的 ? 


根据 这 个 看 法 ， 你 建议 客户 如 何 改进 业务 ? 这 条 信息 如 何 能 帮助 他 


提高 销量 ? 


你 是 





动 动笔 


心智 模型 有 哪些 改变 ? 
有 何 证 据 证 明 你 的 结论 ? 


有 难以 排解 的 不 确定 因素 吗 ? 


动 动笔 解答 


你 如 何 扼要 复述 你 的 工作 ? 你 对 首席 执行 官 提出 了 哪些 建议 以 期 提 


高 销量 ? 














问 : ” 如果 为 了 解决 问题 而 需要 获得 更 详细 的 信息 ， 我 该 做 到 什么 
程度 呢 ? 是 不 是 要 莱 自 去 采访 客户? 

















答 : ”对 新 数据 的 挖掘 深度 最 终 取决 于 你 自己 的 最 佳 判断 ， 在 这 个 
例子 中 ， 你 不 断 摸 索 ， 终 于 找到 了 新 的 市 场 领域 ， 这 个 发 现 足 以 让 你 制 





数据 





问 : 看 来 ， 起 初 的 错误 心智 模型 是 第 一 次 分 析 失 败 的 罪魁 祸首 。 

答 : 是 啊 ， 最 初 的 错误 假设 注定 了 分 析 会 得 出 错误 的 答案 ， 因 
此 ， 从 一 开始 就 务必 要 基于 正确 的 假设 建立 模型 显得 如 此 重要 ， 并 且 ， 
0 
村 济 ， 

问 : 分 析 会 有 大 结局 吗 ? 我 所 追求 的 是 定论 。 

答 : ”数据 分 析 肯 定 会 得 出 重大 问题 的 答案 ， 但 绝 不 会 料 事 如 神 ， 
即使 你 今天 无 所 不 知 ， 明 天 又 会 有 新 情况 。 回 年 长 男子 促销 的 建议 可 能 
在 今天 是 有 效 的 ， 但 Acme 永 远 需 要 分 析 师 为 他 们 出 点 子 抓 销 售 。 


问 :” 听 起 来 挺 没劲 。 





答 : 恰好 相反 ! 分 析 师 好 比 侦 探 ， 总 有 一 些 秘密 等 痢 他 们 去 发 
现 ， 这 正 是 数据 分 析 的 乐趣 所 在 ! 回顾 问题 、 提 炼 模型 、 基 于 新 模型 观 
察 外 界 ， 这 些 都 是 分 析 师 工作 的 基本 组 成 部 分 ， 并 非特 例 ， 而 是 规律 。 








回顾 你 的 工作 


下 面 最 后 看 一 眼 你 所 经 历 的 所 有 步骤 ， 目 的 大 得 出 如 何 帮助 Acme 


提高 貌 洁 保湿 霜 销 量 的 结论 。 


把 委 六 况 弟 溃 并 苞 

爷 忱 天 前 感 扣 行 官 i: ey 
总 专用 柄 格式 

蚁 论点 无 于 所 ， 志和 所 师 按 科 


se 7 
这 册 中 -共识 


” 
- 


( 


CO 


了 了 半 葵 





8 ep. Sw | 
代 训 里 芝 妨 定 范 国 ” 


啊 ， 我 卖 出 去 了 。 
们 追随 老头 和 们 前 进 吧 I 





Ca | 
消费 司 人 多 


党 姓 视 术 认 定 


年 办 名 市 殉 


你 的 分 析 让 客户 做 出 了 英明 的 决策 


看 了 你 的 报告 后 ， 玫 席 执行 官 迅即 调动 营销 团队 创建 < 须 涪 ?品牌 
一 一 无 非 就 是 “ 貌 洁 ” 保 湿 钉 换个 新 名 字 轻 了 。 


Acme 旋 风 般 地 把 须 洁 保 湿 钉 推 品 老年 男子 市 场 ， 下 面 是 结果 : 








效 涡 搞 行 官 洪 定 所 这 天 性 





月 份 


本 销量 一 飞 冲天 ! 两 个 月 的 销量 超过 了 你 在 文章 开头 看 到 的 所 有 目标 
量 。 








你 的 分 析出 成 果 了 ! 





2 实验 
检验 你 的 理论 






大 家 老 是 说 ，“ 挫 儿 ， 难 天 放风 蔓 
是 党 不 到 什么 东 梧 网 ，” 但 我 有 预 
家 ， 我 将 会 证 明 他 们 人 金 措 了 


你 能 回 别 人 揭示 自己 坚信 的 信念 吗 ? 


正在 进行 实证 ”检验 ? 做 个 好 实验 吧 ， 再 没有 什么 办 法 能 像 一 个 好 
实验 那样 ， 既 能 解决 问题 又 能 揭示 事物 的 真正 运行 规律 。 一 个 好 实验 往 
往 能 让 你 摆脱 对 观察 数据 “的 无 限 依赖 ， 能 帮助 你 理 清 因果 联系 ;可 靠 
的 实证 数据 将 让 你 的 分 析 判 断 更 有 说 服 力 。 








咖啡 业 的 寒冬 到 了 ! 


时 局 艰难 ， 连 星 巴 仕 咖啡 店 ”也 在 经 历 剧 痛 ， 那 可 一 回 是 享受 极品 
人 
骤然 下 滑 。 

















销量 在 下 滑 ， 我 们 需要 日 定 一 
个 方案 恢复 元 和 气 ， 得 毒 你 搞 个 
方案 卖 给 董事 会 。 





这 绝对 不 行 | 


星 巴 仁 次 只 并 


前 斋 的 条 官 


星 巴 仕 首席 执行 官 打 电 话 把 你 叫 来 ， 让 你 帮忙 想 办 法 恢复 销量 。 


星 巴 什 董事 会 将 在 三 个 月 内 召开 
要 在 三 个 月 内 拿 出 一 个 扭转 乾坤 的 方案 ， 时 间 已 不 多 ， 但 必须 如 





此 


我 们 不 完全 知道 销量 为 何 下 降 ， 但 必定 与 经 济 环境 有 茶 种 关系 。 无 
论 如 何 ， 你 得 想 出 恢复 销量 的 办 法 。 


该 从 哪儿 着 手 呢 ? 















发 人 入 大 星 巴 针 妊 兆 执行 宫 
上 收 必 人，Head First 
主题 : 莹 看 大 会 即将 吾 开 





看 刘 了 凤 ?1? 
发 件 人 ， 导 巴 仕 蔡 生 会 主 这 
收 任 人: 首 启 起 条 官 

主题 ，“ 荃 事 大 会 即将 各 姑 





去 丰 会 希望 在 下 -- 次 共事 大 会 上 看 到 整套 短 转 


辑录 人 尺 信 挤 回 销 重 的 计划 不 够 同 全 ， 我 们 将 被 迫 
执行 我 们 的 方 计 ， 首 抑 就 是 换 激 让 有 司 乓 并 只- 


经 叶 ! 





射 济 、 


请 看 以 下 选项 。 你 认为 哪些 做 法 会 是 最 好 的 起 点 ? 为 什么 ? 


让 
谭 
I 


会 见 首 岂 机 行 富 ， 刘 汝 种 三 芽 
生 如 何 小 行 亲 务 沁 营 。 


直行 一 次 宏 户 轴 棕 ， 克 清寺 客 热 二 下 沪 一 大 怀 热气 觅 典 的 乓 
户 I 站 砷 法 
来 的 
\ 在 空 宙 姓 号 下 储 寺 汝 
个 侈 项 油 角 法 
Ca 


为 了 想 出 提高 星 巴 仕 咖啡 销量 的 办 法 ， 你 认为 哪 种 做 法 是 最 好 的 起 





会 见 首 席 执行 官 ， 弄 清楚 星 巴 仕 在 如 何 进行 商务 运营 。 


肯定 是 个 好 起 点 。 他 在 生意 上 足智多谋 。 





进行 一 次 客户 调查 ， 弄 清楚 客户 的 想法 。 








弄 清楚 目标 销量 是 怎么 计算 出 来 的 。 














[三 I 人 NN 
WW Do 


给 目 己 泡 一 大 杯 热 气 腾腾 的 星 巴 仕 咖啡 。 
星 巴 仕 咖啡 味道 ， 为 什么 不 来 一 杯 ? 


市 场 部 每 个 月 做 一 次 客户 调查 。 






他 们 随机 扫 取 一 些 典 型 的 咖啡 说 费 者 作 
为 样本 ， 站 消费 者 一 堆 相 关 的 问题 ， 筑 得 咖 
啡 怎么 样 啊 ， 类 咖啡 古 哪 些 经 验 : 啊 …… 


随机 …… 记 
位 这 个 从 1 


人 们 在 调查 中 的 说 法 不 一 定 符 合 他 们 的 实际 做 法 ， 但 问 问 他 人 的 感 
受 总 不 会 有 坏处 。 






我 笑 赏 客户 调查 这 个 点 
本 .看 看 我 们 的 客户 调 
查 ， 把 结果 告诉 我 。 







星 巴 仕 调查 表 
这 就 是 市 场 调查 表 : 市 场 部 每 月 对 大 量 客户 进行 抽样 调查 。 








几 果 你 是 时 巴 仁 赂 客 产 。 
座 可 能 芒 人 会 递 扒 体 一 
厄 这 择 觅 过 请 褒 堪 号， 
















呈 巴 住 调查 胡 


咎 谢 徐 培 写 羡 书 什 证 在 志 1! 下 完 这 ， 我 们 的 客 产 学 台 将 殷 乐 音 为 沁 呈 上 一 
份 价 值 10 美 元 的 礼 佐 ， 您 可 以 企 任 可 一 家 星 巴 引 晤 厘 店 误 用 。 咎 谢 党 光 
诺 皇 巴 福 ! 
日 区 

星 马 什 顾 嘲 访 吏 号 E 

从 1 到 5 中 国 出 每 种 说 法 给 你 的 丰 党 。1 去 示 完 全 不 同意 ，5 表示 完全 同意 
“* 瓜 巴 什 时 啡 占 的 选 址 对 我 妨 方 惩 。” 


mm 


1 2 3 


2009 御 1 月 


DGSRS 











“ 纺 上 来 拘 徊 剧 总 是 汾 热 台 十 。” 


1 2 












“ 填 巴 社员 工 彬 绢 有 筷 ， 黄 昌 圭 红 拒 快 : 


] 2 











“我 认为 县 已 仕 哆 晨 非 常 位 。” 
CE 3 1 5 
“ 星 书 仁 宣 哇 与 是 我 治 肥 的 失业:“ 


2 3 4 Ce 









人 人 科 当 高 入 未 对 法 出 说 注 基 过 外 同 ， 
这 位 医 守 区 殉 非常 各 欢 重 巴 仁 ， 


你 会 怎样 汇总 这 份 调查 数据 ? 


务必 使 用 比较 法 


人 ， 它 指出 ， 数 据 只 有 通 
过 相互 比较 才 会 有 意义 





在 这 个 案例 中 ,市 场 部 计算 出 每 个 问题 。 ye 
的 平均 答案 ， 然 后 逐 月 对 这 些 平 沟 倩 进行 比 人 
较 ， 每 不 月 的 平均 倩 只 有 在 与 其 他 族 份 的 平 er 
均值 进行 比较 | 时 有 用 。 Pp 





这 是 一 份 2008 年 下 半年 市 场 调 查 汇总 表 ”， 表 中 数字 是 各 家 分 
加 调查 的 人 对 各 个 调查 项 给 出 的 平均 分 。 








PT = 
ru sm 
Cp | 
Betas | 
IESNAC TMG: Ea > | 
1 一 是 MG 
3 
i hs 和 -rwiagi iay 
nN = £ 
VE EM dvr 生 才 本 二 
Mi 1 TSIong 
wk 1 sleetab 
Ds 0 





er 如 本 7 








个 在 3 月 | 8 下 9 | 年 0 
地 让 方 恒 | 4.7 456 


匣 厦 洪 虚 40| 49| 
册 工 起 昼 | 36| 41| 
其 吐 价 六 人 $9 
个 索 去 处 














芒 媳 谢 奔 的 让 iDl 39 


NS_ 这 个 赤 字 总 办 与 这 出 We 


相 冰 长兴 人 金 疹 用 ， 














小 心 | 


必须 进行 明确 的 比较 。 


如 果 一 份 统计 数据 看 起 来 颇 有 意思 ， 或 看 起 来 有 用 ， 你 就 需要 针对 
这 份 统计 数据 与 其 他 统计 数据 的 比较 情况 ， 解 释 为 什么 会 有 这 种 作 


O 


如 果 不 搞 清楚 这 一 点 ， 就 等 于 是 在 假设 客户 会 自己 进行 这 种 比较 ， 
这 会 是 一 个 不 合格 的 分 析 。 














比较 是 破解 观察 数据 的 法 宝 

比较 越 多 ， 分 析 结 果 越 正 确 ， 对 于 观察 研究 尤其 如 此 ， 星 巴 仕 研 
完 就 是 一 例 。 

通过 观察 数据 ， 你 仅仅 是 在 观察 人 
们 ， 并 让 大 们 自己 决定 所 属 的 群体 。 搜 
集 观 察 数 据 往 往 是 通过 实验 取得 更 有 用 
数据 的 第 一 步 。 







人 群 可 能 分 为 将 几 类 ， 大 
客户 、 茶 客 等 。 


面 站 芯 验 中 ， 则 由 体 决 定 哪 
些 人 属于 哪些 群体 . 


观察 研究 法 ”被 研究 的 人 自行 决定 
自己 属于 哪个 群体 的 一 种 研究 方法 。 


术 诺 阴 
| 





练习 


查看 对 开 页 上 的 调 碍 数据 ， 比 较 几 个 月 内 的 平均 值 。 
注意 到 茶 种 规律 了 吗 ? 





有 什么 信息 能 说 明 销 量 下 降 的 原因 吗 ? 


练习 解答 


现在 你 已 经 细 细 看 过 数据 ， 可 以 找 出 数据 强 含 的 规律 了 。 





注意 到 茶 种 规律 了 吗 ? 

















更 星 巴 仕 咖啡 3 J 价值 。 


价值 感 是 导致 销售 收入 下 滑 的 原因 吗 ? 


纵 观 这 些 数据 ， 除 了 星 巴 仕 咖啡 价值 感 这 个 变量 ， 星 巴 什 的 顾客 对 
其 他 方面 都 感觉 民 好 。 


看 起 来 ， 星 巴 仕 没 有 给 人 们 物 超 所 值 的 感觉， 这 可 能 是 导致 购买 和 量 
Le 的 原因 。 也 许 经 济 环境 让 人 们 钱包 变 瘦 了， 于 是 他 们 对 价格 更 为 敏 
让 我 们 把 这 个 理论 称 为 “价值 问题 ”。 
星 巴 仕 咖啡 


这 是 2008 年 下 半年 市 场 调查 汇总 表 。 表 中 数字 是 在 各 家 分 店 参 加 调查 的 
人 对 各 个 调查 项 给 出 的 平均 分 。 



















选 址 点 怖 


则 下 记 度 
员工 扑 居 4 
别 啡 愉 情 2.1 


情爱 去 让 
蓉 岂 调查 丫 时 
访 个 密 量 在 这 

去 站 个 月 中 相 
当年 移 地 下 隆 ， 


[0 





动 动脑 


你 认为 感知 价值 的 下 降 是 销量 下 降 的 原因 吗 ? 


世上 没有 伊 问题 
问 : 我 怎么 知道 价值 下 降 确 实 会 导致 咖啡 销量 下 降 ? 


答 : 你 没 法 知道 。 但 目前 只 有 感知 价值 数据 与 销量 的 下 降 相 吻 
合 。 销 量 和 感知 价值 看 起 来 像 是 在 并 屑 下 落 ， 但 你 无 法 确定 是 价值 的 下 
降 导 致 了 销量 的 下 降 ， 目 前 ， 这 只 是 理论 上 的 判断 。 


问 : ”会 不 会 有 其 他 作用 因素 ? 可 能 价值 问题 并 不 像 看 上 去 那么 简 
单 。 


答 : 几乎 可 以 肯定 会 有 其 他 因素 在 起 作用 ， 使 用 观察 研 完 方法 
时 ， 应 当 假 定 其 他 因 和 际会 混杂 你 的 结论 ， 因 为 你 无 法 像 控制 实验 那样 控 
制 这 些 因 素 。 后 面 几 页 会 进一步 讨论 这 些 行 话 。 


问 : ”会 不 会 正好 相反 呢 ? 可 能 正 是 销量 下 降 让 人 们 认为 咖啡 没有 
什么 从 值 。 


答 : ” 问 得 非常 好 ， 很 有 可 能 正好 相反 。 分 析 师 们 的 一 个 很 好 的 经 
验 法 则 是 ， 当 你 开始 怀疑 因果 关系 的 走 癌 时 (如 价值 感 的 下 降 导 致 销量 
人 
怎么 样 。 


问 : 那么 我 如 何 看 出 是 谁 导致 了 谁 ? 

答 : ”我 们 将 在 本 书 中 大 量 讨论 如 何 判 定 原因 ， 但 现在 你 该 知道 的 
是 ， 当 涉及 判定 因果 关系 时 ， 观 察 研究 法 并 不 是 那么 强大 有 力 。 一 般 情 
况 下 ， 需 要 使 用 其 他 工具 才能 进行 判定 。 


问 :” 听 起 来 观察 研究 法 没什么 意思 。 























答 : ”完全 不 是 这 么 回 事 ! 观察 数据 无 所 不 在 ， 要 是 因为 观察 研究 
法 有 不 足 之 处 束 忽 视 这 种 方法 ， 那 可 是 狐 了 。 真 正 重 要 的 是 ， 你 要 了 解 
观察 研究 法 的 局 限 性 ， 这 样 才 不 会 得 出 错误 的 结论 。 









你 所 谓 胸 “ 价 贡 问题 ”在 我 着 启 里 根 
蔡 趟 存在 | 我 们 的 时 巴 性 闸 坟 本 透 癌 
这 天 ， 如 少 信 认为 星 巴 仁 他 乞 虱 全 。 
肯 突 是 哩 里 损 糟 了 。 










SoHo 区 的 区 域 经 理 不 同意 


SoHo 区 是 一 个 富 人 区 ， 也 是 儿 家 利润 丰厚 的 星 巴 仕 分 店 的 所 在 
地 ， 负 责 这 几 家 分 店 的 经 理 不 相信 价值 感 问题 的 真实 性 。 


你 认为 她 为 什么 不 同意 ? 是 她 的 顾客 在 说 说 吗 ? 是 数据 记录 不 正确 
吗 ? 还 是 观察 研究 法 本 身 有 问题 ? 











一 位 典型 客户 的 想法 





= 


吉姆 : 
据 ， 数 据 是 不 会 撤 详 的 。 


别 把 SoHo 区 星 巴 仕 放 在 心 上 。 那 些 家 伙 不 知道 怎么 看 数 
弗 兰 殉 :我 可 不 愿 这 么 快 下 结论 ， 有 时 候 一 线 人 员 的 直觉 比 统计 
数据 更 能 说 明 问 题 。 


齐 : 完全 正确 。 其 实 ， 我 正 想 丢 开 所 有 的 数据 ， 有 些 东 西 看 起 来 
很 可 疑 。 


吉姆 : 你 有 什么 特别 的 理由 认为 这 些 数据 有 问题 ? 
乔 : 我 没 理由 。 味 道 可 疑 ? 
弗 兰 死 : 看， 我 们 需要 回头 看 看 我 们 对 典型 客户 或 一 般 客 户 的 释 


nd 





星 巴 仕 销量 下 降 


把 所 起 到 次 事物 之 间 胸 ,i 
sa 由 业 “gg 人 们 的 反 稚 造 衣 
联系 画 出 来 ， 这 一 向 是 


只 人 .1 刍 
个 将 至 总， 了 这 个 结果 。 


时 


弗兰克 : 这 一 连 串 的 事情 没有 发 生 在 SoHo 区 居民 的 号 上 ， 有 什么 
原因 吗 ? 


吉姆 : ”可 能 SoHo 区 的 居民 没 受到 经 济 环 境 的 打击 ， 住 那儿 的 人 语 
得 冒 油 ， 还 自私 自 利 。 


乔 : 喂 ， 我 女 朋 友 住 在 SoHo 区 。 
弗 兰 殉 : ， 搞 不 懂 你 怎么 说 动 这 等 风流 人 物 和 你 约会 的 。 吉 姆 ， 你 


可 能 说 对 了 ， 要 是 有 人 理财 能 力 强 的 话 ， 可 能 就 不 那么 容易 相信 星 巴 仕 
缺乏 价值 。 














看 起 来 ，SoHo 区 星 巴 仕 店 的 顾客 可 能 和 其 他 星 巴 仕 店 的 
顾客 不 一 样 .……. 


观察 分 析 法 充满 混 共 因素 
混杂 因素 ”就 是 研究 对 象 的 个 人 差异 ， 它 们 不 是 你 试图 进行 比较 的 
因素 ， 最 终 会 导致 分 析 结果 的 敏感 度 变 差 。 


在 这 个 案例 中 ， 你 对 不 同时 间 “” 段 内 的 星 巴 仕 顾客 进行 相互 比较 ， 
星 巴 仕 的 客户 显然 互 不 相同 一 一 因为 他 们 是 不 同 的 人 。 


但 是 ， 如 果 他 们 的 相互 差异 表现 在 你 力求 了 解 的 菏 个 变量 方面 ， 这 
种 差异 束 是 混 末 因素 ， 本 例 中 的 混杂 因素 是 店 址 。 




















这 是 Sodlo 区 舌 客 ， 








这 是 所 者 手 巴 8 
仁 左 客 . 9 
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种 孙 一 样 在 措 乱 我 们 交 分 析 牛 果 ， 


重新 绘制 对 开 页 中 的 因果 图 ， 将 SoHo 店 和 其 他 店 分 开 ， 校 正 选 址 


混 洒 因素 。 


假定 SoHo 区 区 域 经 理 是 正确 的 ， 即 SoHo 区 顾客 并 没有 感受 到 价值 
问题 。 那 么 这 种 现象 对 销量 有 何 影响 呢 ? 








店 址 可 能 对 分 析 结 果 有 哪些 影响 


这 是 一 张 经 过 重新 整理 的 图 形 ， 图 中 表现 了 可 能 会 发 生 的 事情 。 用 
这 样 的 图 来 形象 地 表示 你 的 理论 。， 的 确 非 常 棒 ， 能 让 你 自己 和 你 的 客 
户 顺 着 你 的 思路 去 想 。 





和 过 最 贡 


了 了 了 名- 一 相 到 


二 济 赛 记 


吕 吉 着 网 客户 情况 . 





oo 下 3 3 
站 儿 : AT 的 是 二 
入 们 眉 关 有 和 
| | 大 可 世 鸭 星 巴 仁 加 反共 位 
和 蔡 头 率 二 这 局 的 : : 
下 熙 五 店 ， 吕 总 : 时 巴 半 自嘲 局 丰 
i : 有 以 填 
蜂 个 康 避 守 玫 1 : : | 
啡 个 钳 芝 l ss : 显 巴 仁和 销量 下 隘 


星 巴 竺 剂 重 情 越 
训 动 


怎样 处 理 一 下 数据 才能 看 出 是 否 SoHo 区 星 巴 仕 分 店 的 价值 感 仍 然 
0 
1? 


世上 没有 伊 问 题 


问 : ”在 这 个 案例 中 ， 的 确 是 客户 的 财富 而 不 是 咖啡 店 的 店 址 影响 
了 分 析 结 果 吗 ? 








答 : ”当然 ， 而 且 这 二 者 很 可 能 有 关系 。 如 果 你 能 得 到 每 位 顾客 有 
多 少 钱 的 数据 ， 或 者 能 知道 每 位 顾客 花 多 少 钱 会 感到 和 舒坦， 你 就 能 再 次 
进行 分 析 ， 看 出 以 财富 为 基础 划分 群 组 会 得 出 什么 结果 。 但 由 于 我 们 无 
法 得 到 这 些 信息 ， 就 只 好 使 用 店 址 。 此 外 ， 由 于 我 们 的 理论 是 越 富有 的 
人 越 愿 意 在 SoHo 区 消费 ， 因 此 店 址 能 说 明 问 题 。 


问 : 除了 店 址 ， 有 没有 别 的 变量 可 能 混杂 这 些 数据 ? 

答 : 肯定 有 。 混 区 因素 是 观察 研究 法 绕 不 开 的 问题 。 作 为 分 析 
师 ， 你 的 工作 就 是 不 断 考 虑 混 茶 因 系 对 分 析 结 果 的 影响 。 如 果 你 认为 混 
杂 因 素 的 影响 微不足道 ， 很 好 ， 但 如 果 有 理由 相信 这 些 混 区 因素 正在 引 
发 问题 ， 那 么 ， 你 束 需 要 相应 调整 自己 的 结论 。 


问 : 如果 混杂 因素 难以 发 现 怎么 办 ? 


























答 : ”这 正 是 问题 所 在 。 混 杂 因 素 通 常 不 会 故意 在 你 眼前 晃 悠 。 为 
了 让 自己 的 数据 尽量 有 说 服 力 ， 你 需要 自己 动手 把 这 些 隐 藏 的 混 森 因 系 
冬 出 来 。 在 本 例 中 ， 我 们 很 幸运 ， 因 为 地 址 这 个 混杂 因 和 又 其 实 吕 在 数据 
里 ， 因 此 我 们 可 以 处 理 和 管理 这 个 数据 。 通 党 我 们 无 法 得 到 混杂 因素 信 
恩 ， 这 会 严重 动 播 整 个 分 析 的 根基 ， 让 你 无 法 得 到 正确 结论 。 


问 : ”我 要 做 到 什么 程度 才 算 查 清 了 混杂 因素 ? 


答 : ”这 与 其 说 是 科学 ， 葛 如 说 是 艺术 。 你 不 妨 就 自己 正在 研究 的 
问题 问 自己 一 些 常识 性 问题 ， 借 此 想象 哪些 变量 可 能 会 影响 你 的 分 析 结 
果 。 正 如 数据 分 析 和 统计 学 中 的 各 种 手段 一 样 ， 无 论 你 的 量化 技术 多 么 
出 神 入 化 ， 真 正 的 重点 却 永远 在 于 :分析 结论 要 有 意义 ”。 只 要 结论 有 
意义 ， 而 且 你 已 经 彻头彻尾 地 查找 过 混杂 因素 ， 那 么 你 就 已 经 做 了 观察 
研究 法 要 求 你 做 的 一 切 工作 。 其 他 类 型 的 分 析 ， 如 后 文 所 述 ， 可 以 让 你 
做 出 更 大 胆 的 结论 。 


问 : 如 果 我 研究 的 不 是 价值 感 而 是 其 他 对 象 ， 同 样 对 于 这 些 数 
据 ， 店 址 是 否 不 会 成 为 混杂 因素 ? 


答 : ”完全 正确 。 记 住 ， 只 是 在 这 个 例子 中 ， 店 址 才 是 一 个 混杂 因 
素 ， 但 在 其 他 例子 中 可 能 并 没有 作用 。 例 如 ， 在 这 里 我 们 没有 理由 相 
信 “ 咖 啡 温度 让 人 感觉 恰恰 好 ”这 个 因素 在 每 个 地 方 都 不 一 样 。 























问 : 我 仍然 觉得 观察 研究 法 有 很 多 很 严重 的 问题 。 


答 : ”观察 分 析 法 是 有 很 大 局 限 性 。 这 种 特别 的 研究 方法 的 作用 在 
于 帮助 你 更 好 地 了 解 星 巴 仕 的 客户 ， 只 要 你 控制 好 数据 中 的 店 址 问题 ， 
研究 束 会 更 有 说 服 力 。 














拆 分 数据 岂 ， 管 理 混 末 因素 


为 了 控制 ”观察 研究 混 林 因素 ， 有 了 时候， 将 数据 拆 分 为 更 小 的 数据 
块 是 个 好 想法 。 


这 些小 数据 块 更 具 同 质 性 ”。 换 句 话 说 ， 这 些小 数据 块 不 包含 那些 
有 可 能 扭曲 你 的 分 析 结 果 及 让 你 产生 错误 想法 的 内 部 偏差 。 


现在 再 来 看 看 星 巴 仕 的 调查 数据 ， 这 一 次 将 其 他 地 区 的 数据 列 在 相 
应 的 表格 里 。 


星 巴 仕 咖啡 店 : 所 有 分 店 





这 是 原 蚂 数 
撕 让 号 . 


到 2009 年 1 用 邯 赴 的 市 场 调查 汇总 。 表 中 数字 是 在 和 家 分 鼎 僚 加 调查 的 人 对 各 个 调 灾后 
给 出 的 平均 分 ， 








[98 在 9 有 咯 年 19 及 [0g 年 D1 时 10s 年 12 时 0 年 ] 习 











有 与 | 30 | 45 
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08 和 9 中 
过 址 方 局 
唱 唱 混 度 
员工 热 悦 








练习 


请 看 对 开 页 的 分 组 数据 。 
东 岸 区 分 店 平均 得 分 和 星 巴 什 所 有 分 店 平均 得 分 有 何 差异 ? 











证 


将 所 有 数据 组 的 咖啡 感知 价值 相互 之 间 比 较 ， 情 况 如 何 ? 


EET 


SoHo 区 区 域 经 理 “ 客 户 对 星 巴 仕 咖啡 感觉 很 好 ”的 判断 正确 吗 ? 





EET 


查看 已 经 按 店 址 分 组 的 调查 数据 ， 你 能 看 出 什么 ? 








东 岸 区 分 店 平均 得 分 和 星 巴 仕 所 有 分 店 平均 得 分 有 何 





让 
郑 








SoHo 区 的 价值 感 平 均 得 分 轻 举 地 击 幢 又 域 的 平均 分 ， 





上 去 这 个 区 域 的 顾客 非常 满意 星 巴 什 的 价值 。 


SoHo 区 区 域 经 理 “ 客 户 对 星 巴 仕 咖啡 感觉 很 好 ”的 判断 正确 吗 ? 











情况 比 预 料 的 更 粳 ! 
为 了 解决 你 们 所 发 现 的 问题 ， 大 人 物 们 都 行动 起 来 了 。 





苗 斋 财务 官 

首席 财务 : 情况 比 我 们 预料 的 还 糟糕 ， 糟 透 了 。 除 了 SoHo 
区 ， 各 个 区 的 价值 感 都 已 经 彻底 跌 穿 地 板 。 

营销 副 总 : 没 错 。 第 一 张 表 体现 了 所 有 区 的 数据 ， 确 实 让 价 
值 感 看 上 去 比 实际 的 要 好 。SoHo 区 把 数据 向 好 的 方向 扭曲 了 。 

首席 财务 : ”只 要 把 人 人 都 是 富 兮 的 SoHo 区 剥离 出 来 ， 就 可 以 
> 
次 去 。 

营销 副 总 : 所 以 我 们 要 搞 清楚 该 怎么 办 。 

首席 财务 : 我 来 告诉 你 该 怎么 办 一 一 大 减 价 。 

营销 副 总 : 什么 ?! ? 

首席 财务 : ”你 没 听 错 ， 我 们 得 大 减 价 。 这 样 人 们 就 会 觉得 价 
值 不 错 了 。 














人 营销 副 总 : 我 不 知道 你 是 从 哪个 星球 来 的 ， 但 我 们 得 考虑 品 

首席 财务 : ”我 来 自 丙 业 星 球 ， 我 们 把 这 叫做 供与 求 ， 你 大 概 
ee 。 减 价 ， 然 后 需求 上 升 。 

营销 副 总 : 是 前 减 成 本 ， 短期 内 我 们 可 能 会 看 到 销量 回 
升 ， 但 会 水 过 所 失利 站 我 们 需要 想 办 法 在 价格 不 变 的 情况 下 说 服 
大 伞 星 马 仁 有 入 值 。 

首席 财务 : ”这 是 狗 话 。 我 现在 说 的 是 经 讲 ， 钞 票 。 有 激励 人 
nn 


你 手头 的 数据 是 否 能 让 你 明了 哪 种 委 略 将 提高 销量 ? 








你 需要 做 一 个 实验 ， 指 出 哪 种 策略 最 有 效 
请 再 看 一 下 上 一 页 最 后 一 个 问题 : 
你 手头 的 数据 是 和 否 能 让 你 明了 哪 种 第 上 略 


将 提高 销量 ? 
(人 网 罕 报 所 这 身 天 法 法 预示 未 来 ， 


你 没有 任何 观察 数据 能 够 表明 ， 如 果 试 着 照 营 销 副 总 裁 或 首席 财务 
官 的 建议 去 做 ， 将 会 发 生 什么 情况 。 


如 琳 你 想 对 与 数据 相符 合 但 并 未 在 数据 中 充分 体现 的 事情 做 出 结 
论 ， 就 需要 用 理论 将 它们 联系 起 来 。 





则 说 可 旺 对 入 ， 册 本 能 彻 总 


流出 
精 谍 ， 旭 谷 蚁 扒 据 斗 流 人 位 旭 出示， 
1 市 场 划 销 筑 略 
本 市 场 营销 品牌 理论 en | 
| 游 澡 估 信 们 六 二 反应 一 一 NE 让 1 了 。 说 红 人 生疏 变 舍 念 ， 洛 坦 体 
| - 芍 苹 岂 | 
人 
首席 财务 官 的 经 济 理论 ! BR 
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» 产生 反 遍 。 

: 译注 上 出 ! 应 。 | ie 族人 jr., 及 本 证 二 人 人 站 |: ,Li | 局 | 

1 


售 什 患 党 于 次 ”和 将 忆 让 让 呈 下 首 。 


管 这 二 位 都 狂热 地 相信 自己 的 理论 及 根据 这 些 理论 制定 的 策略 ， 
有 数据 文 持 任何 一 种 理论 。 


为 了 进一步 弄 清楚 哪 种 集 略 更 好 ， 你 将 需要 做 一 个 实验 。 
你 需要 对 这 些 策 略 进 行 实 验 ， 目 的 是 了 解 哪 种 策略 将 提 


高 销量 。 


尽 
1 没 


你 去 


星 巴 什 首 席 执行 官 已 经 急 不 可 竺 











我 已 经 类 去 耐心 了 。 我 
赞同 首 遍 财务 官网 观点， 
减 价 以 观 后 玫 。 











不 管 你 是 不 是 已 经 做 好 准备 ， 他 要 动手 了 ! 
让 我 们 看 看 他 的 战术 怎么 展开 .……. 


星 巴 仕 降价 了 


在 首席 财务 官 的 提示 下 ， 首 席 执行 官 下 令 所 有 分 店 在 二 月 集体 降 
价 ， 所 有 星 巴 仕 分 店 的 咖啡 价格 统统 降低 0.25 美 元 。 


-> 


S00 $3.75 
这 种 改变 会 引起 销量 暴 增 吗 ? 何以 见得 ? 





1 








咯 要 了 ! 一 才 会 对 降价 赂 到 润 将， 不 
这， 着 省 这 中 活 员 渔 区。 提 音 我 沉 委 
如 道 ， 榜 这 这 得 齿 请 束 后 ， 我 们 多 邮 
了 各 字 经 ， 


练习 


要 是 能 知道 星 巴 什 二 月 份 降价 比 不 降价 多 赚 了 多 少 ”就 好 了 。 你 认 
为 销量 中 有 数据 能 帮助 搞 清 楚 这 一 点 吗 ? 为 什么 ? 


练习 


能 帮助 你 搞 清楚 价格 调整 到 3.75 美 元 以 后 多 赚 了 多 少 
四 ? 








以 控制 组 为 基准 


对 于 多 赚 了 多 少 钱 ， 你 坚 无 头绪 。 相 对 于 “要 是 首席 执行 官 未 下 令 
减 价 而 本 该 产生 的 销量 ”， 现在 这 个 销量 可 能 是 暴涨 ， 也 可 能 是 暴跌 ， 
然而 终究 难 成 定论 。 


难 成 定论 的 原因 是 ， 首 席 执 行 官 下 令 集 体 降价 ， 这 违背 了 比较 法 


。 好 的 实验 总 是 有 一 个 控制 组 (对 照 组 )” ， 使 分 析 师 能 够 将 检验 情况 
与 现状 进行 比较 。 


术语 角 


控制 组 (Control group ) 一 组 体现 现状 的 处 理 对 象 ， 未 经 
过 任何 新 的 处 理 〈 也 称 对 照 组 ) 。 


启事 星 忆 性 政和 蔡 现 状 ， 夫 一 
曙 可 书 书 柱 一 全 囊 琴 ， 后 本 








没有 控制 组 就 意味 着 没有 比较 ， 没 有 比较 就 意味 着 无 法 
对 所 发 生 的 情况 进行 判断 。 











世上 没有 伊 问题 
问 : 我们 不 能 拿 二 月 份 的 数据 和 一 月 份 的 数据 进行 比较 吗 ? 


答 : ”当然 可 以 。 要 是 你 们 感 兴 趣 的 只 是 二 月 份 的 销量 是 否 比 一 月 
份 的 高 ， 是 能 有 答案 的 。 但 在 不 加 以 控制 的 情况 下 ， 这 些 数 据 无 法 体现 
其 与 价格 下 降 的 内 在 联系 。 


问 :， 拿 今年 二 月 份 的 数据 和 去 年 二 月 份 的 数据 进行 比较 怎么 样 ? 


答 : ”你 在 这 个 问题 和 最 后 一 个 问题 中 谈 到 的 都 是 历史 控制 法 ， 这 
种 方法 取 用 过 去 的 数据 ， 并 将 这 些 数据 作为 控制 数据 ， 与 此 相反 的 是 同 
期 控制 法 ， 在 这 种 方法 中 ， 控 制 组 与 实验 组 在 同样 的 时 期 内 经 历 同样 的 
事 。 历 史 控 制 法 通常 偏 癌 于 你 力图 进行 检验 的 对 象 的 成 功 方面 ， 因 为 很 
难 选 出 和 你 所 测试 的 组 真正 相似 的 控制 组 。 总 体 上 说 ， 你 应 该 对 历史 控 
制 法 表示 怀疑 。 


问 : ”一 定 要 用 控制 组 吗 ? 从 来 没有 一 个 案例 是 不 用 控制 组 也 行 得 
通 的 吗 ? 


答 : “世上 有 很 多 无 法 控制 的 事 。 例 如 选举 投票 ， 选 民 不 能 同时 选 
两 个 候选 人 ， 你 不 能 先 看 看 谁 比 谁 进展 更 好 ， 然 后 再 回 尖 去 选 更 为 成 功 
的 一 位 。 虽 说 选举 方式 无 法 改变 ， 却 不 表示 不 能 一 对 一 地 分 析 各 种 迹 
象 ， 但 是 ， 如 果 能 够 做 一 个 与 此 类 似 的 实验 ， 瓯 能 对 目 己 的 选择 更 为 目 


信 ! 


问 : ” 那 医 学 试验 怎么 说 ?假设 你 想 试 用 一 种 新 药 ， 并 且 相 信 这 种 
SS 
或 等 死 ? 


答 : “这 是 一 个 考虑 了 法 律 伦理 学 的 好 问题 。 缺 乏 控制 数据 (或 使 
用 历史 控制 数据 ) 的 医学 研究 所 青睐 的 疗法 随后 往往 被 同期 控制 实验 表 
明 没 有 效果 或 甚至 有 害 。 无 论 你 对 一 种 治疗 方法 的 感情 如 何 ， 除 非 做 控 
制 实 验 (对 照 实验 ) ， 否 则 无 法 确定 进行 治疗 是 舍 比 不 进行 任何 治疗 更 
有 效 。 最 糟糕 的 情况 是 ， 对 于 实际 上 于 人 有 损 的 治疗 ， 要 停止 推广 。 


问 : 就 像 给 病人 进行 放血 治疗 一 样 吗 ? 
































答 : ”对 极 了 。 历 史上 最 早 的 控制 实验 中 就 有 一 些 将 放血 疗法 与 让 
病人 静养 相 比 较 。 坦 白 说 ， 使 用 了 几 百 年 的 放血 疗法 让 人 厌恶 极 了 ， 现 
在 ， 因 为 做 了 控制 实验 ， 我 们 知道 这 是 一 种 错误 的 疗法 。 


问 : 观察 研究 法 有 控制 数据 吗 ? 


答 : ”当然 有 。 记 住 观察 研究 法 的 定义 ， 这 种 研究 方法 让 研究 对 象 
自己 决定 他 们 属于 哪个 组 ， 而 不 是 由 研究 者 来 决定 。 例 如 ， 如 果 想 做 一 
个 关于 吸烟 的 研究 ， 你 无 法 让 茶 些 人 成 为 烟 民 或 不 成 为 烟 民 ， 诀 定 是 否 
0 i 
法 中 的 控制 组 。 


问 : ”我 经 历 过 各 种 各 样 的 情况 ， 销 量 都 在 一 个 月 内 上 涨 ， 据 说 是 
由 于 我 们 上 一 个 月 做 的 一 些 工 作 ， 而 且 ， 因 为 别人 说 我 们 做 得 不 错 ， 大 
家 都 感觉 民 好 。 但 你 现在 却说 我 们 对 目 己 做 得 是 好 是 坏 完全 没有 头绪 ? 


答 : “你们 可 能 是 做 得 不 错 。 商 业 生活 中 免不了 有 和 赁 直觉 办 事 的 时 
候 ， 有 时 你 无 法 控制 实验 ， 必 须 依赖 基于 观察 数据 的 判断 。 但 是 ， 只 要 
能 做 实验 就 做 吧 。 在 下 决定 的 时 候 ， 再 没有 比 可 靠 的 数据 更 能 为 你 的 判 
上 是 和 直觉 提供 补充 了 。 在 这 个 例子 中 ， 你 还 没有 得 到 可 靠 的 数据 ， 却 有 
一 位 淘 望 答案 的 首席 执行 官 。 





























首席 执行 官 仍然 想 知 道 新 策略 让 他 多 赚 了 多 少 钱 .…… 你 
该 如 何 答复 呢 ? 


吉姆 : “首席 执行 官 要 求 我 们 弄 清楚 ， 二 月 份 赚 的 钱 中 有 多 少 
古 不 减 价 本 来 赚 不 到 的 ， 我 们 得 给 这 家 伙 一 个 答案 。 

弗 兰 苑 : ” 喔 ， 这 可 是 个 棘手 问题 。 我 们 对 于 多 赚 了 多 少 钱 坚 
无 头绪 ， 可 能 赚 了 不 少 ， 但 也 可 能 赔 了 钱 。 我 们 算是 丢人 现 眼 了 ， 
邦 麻 烦 了 。 





齐 : ”怎么 会 ， 我 们 完全 可 以 把 销售 收入 和 历史 控制 数据 相 比 


校 ， 可 能 不 会 非常 令 人 满意 ， 但 他 会 开心 的 ， 这 就 是 一 切 意义 所 


人 


身 。 





弗兰克 : 客户 开心 融 是 一 切 意 义 所 在 ? 看 来 你 是 想 明哲 保 
要 是 我 们 给 他 错误 的 答案 ， 问 题 最 终 还 是 会 落 到 我 们 头 上 。 
乔 : 随 你 怎么 说 。 

弗兰克 : 我 们 将 不 得 不 向 他 坦白 事实 ， 这 不 会 是 个 美 差 。 
吉姆 : ” 看， 其实 我 们 已 经 有 眉目 了 。 我 们 只 需 为 三 月 份 设 定 


一 个 控制 组 ， 然 后 再 做 一 次 实验 。 





弗 兰 元 : ”但 首席 执行 官 对 二 月 份 的 进展 感觉 民 好 ， 因 为 他 对 


这 些 进展 有 误会 ， 我 们 必须 打消 他 这 种 民 好 的 自我 感觉 。 


吉姆 : 我 想 我 们 能 让 他 清醒 地 思考 ， 而 不 是 星之 以 里 。 


避免 解雇 123 


免不了 要 报告 坏 消 妃 是 数据 分 析 师 工作 的 一 部 分 ， 不 过 ， 同 样 的 消 
奶 却 可 以 用 各 种 不 同 的 方式 来 表达 。 


让 我 们 直 说 吧 : 如 何 才能 既 说 出 坏 消息 ， 叉 不 被 炒 鳄 鱼 ? 
顶级 数据 分 析 师 懂得 受 当 地 报告 有 可 能 令 人 泪 形 的 消 








人 ,sy 





你 说 得 对 ! 我 们 的 销量 
扶 插 直上 ， 涨 了 100%6 
你 是 个 天 才 ! 











说 法 1: 没什么 坏 消 息 。 


我 们 线 尽 了 脑 汗 ， 一 切 
人 金 完了 。 书 束 你 列 炒 我 





说 法 2:， 和 情况 不 妙 ， 我 们 撤 吧 ! 











坏 演 息 是 实验 没有 给 我 
们 带 来 起 要 哆 答案 ， 将 消 
息 是 我 知道 内 何 解决 这 个 





说 法 3: ”事情 不 尽 如 入 意 ， 但 只 要 我 们 处 理 得 当 ， 坏 消息 就 会 变 成 好 消 
息 。 


娜 一 种 说 法 不 至 于 让 你 被 炒 包 鱼 ? 
今天 ? 
明天 ? 


下 一 次 ? 


让 我 们 重新 认真 做 一 次 实验 


我 们 正在 做 三 月 份 的 实验 ， 这 一 次 ， 营 销 部 把 所 有 的 星 巴 仕 分 店 分 
成 了 控制 组 和 实验 组 。 


人 ， 控 制 组 包括 SoHo 区 和 东 岸 区 所 有 
他 上 后 


发 件 人 时 巴 仕 首 诊 搞 行 官 
收 件 人 : Head First 
主题 ， ”和 坑 要 重新 侯 实 验 


我 知道 情况 了 ， 高 曹 事 大 会 石 开 还 有 两 个 
月 的 时 间 。 该 做 什么 就 做 什么 吧 ， 注 次 要 
上 时间 惨 户 | 





实验 组 


太平 洋 区 





$3.75 


控制 组 


SoHo 区 和 东 岸 区 





“局 


人 恒 花 保持 未 赤 


| 
请 看 起 来 非常 顺 ! 实验 可 能 会 让 你 看 到 想 要 的 答案 





减 价 的 效 





于 店 日 平 司 收入 





巨 席 册 









i CC i 


Te 


皖 齐 和 组 1/ 


我 们 是 否 斌 告诉 划 高 热 行 
官 ， 最 归 确 俘 实 验 中 苑 公 
心 前 那样 背 误 沁 束 因素 。 





有 混杂 因素 吗 ? 


记 住 ， 混 杂 因 素 是 所 研究 的 各 个 组 之 间 的 差异 ， 而 不 是 试图 进行 比 
较 的 因素 。 





请 观察 前 一 页 的 设计 和 以 上 结果 。 


这 些 变量 会 成 为 分 析 结 果 的 混杂 因素 吗 ? 
文化 


咖啡 温度 
天 所 
动 动笔 解 答 


这 些 变量 会 成 为 分 析 结 果 的 混杂 因素 吗 ? 
文化 








实验 照样 会 毁 于 混杂 因 系 


由 于 你 刚刚 走出 观察 研究 的 世界 着 手 实验 ， 所 有 还 没有 摆脱 混杂 因 
素 的 加 绊 。 


为 了 有 效 地 进行 比较 ， 各 个 组 必须 相同 “， 人 否则 无 异 于 拿 苹 果 和 权 
Se 


信 正 在 秆 二 霹 刘 村 测 萎 ， 唐 除了 记 州 
叫 意 ， 定 们 利 稚 量 迁 面 寺 六 和 直 税则， 


中 


ee RR : 区 时 组 
5 本 平 洋 区 分 店 


; 所 有 时 巴 尼 网 客 ， 8 
: 东 呈 大 二 叶 直 他 得 


混杂 因素 


你 的 实验 结果 显示 ， 实 验 组 的 营业 收入 提高 了 ， 这 可 能 是 因为 咖啡 
减 价 后 人 们 增加 了 消费 ; 但 由 于 组 与 组 之 间 无 法 相互 比较 ， 因 此 
也 有 可 能 是 其 他 原因 造成 营业 收入 增高 一 一 天 气 可 能 造成 东 岸 区 的 
人 不 出 门 ， 太 平 洋 区 的 经 济 可 外 2 EL 由 于 
有 混杂 因素 的 存在 ， 你 永远 也 找 不 到 答 








精心 选择 分 组 ， 避 免 混 杂 因 素 


正如 观察 分 析 法 一 样 ， 避 和 免 混 革 因 素 完 全 要 徘 正 确 将 咖啡 店 分 组 。 
但 怎么 分 才 好 呢 ? 


站 
站 


RR SL FE, 
7 Ms 
记名 时 祥 ? 


这 里 有 四 种 分 组 方法 。 你 怎么 看 待 每 种 方法 在 避免 形成 混杂 因素 上 
的 作用 ? 你 认为 哪 一 种 分 组 方法 最 好 ? 


轮流 按 不 同 的 价格 给 顾客 结账 。 这 样 一 来 ， 一 半 顾 客 进 入 实验 组 ， 
一 半 顾 客 进 入 控制 组 ， 店 址 不 再 成 为 混杂 因素 。 


人 
wr 


和 


使 用 历史 控制 法 ， 将 这 个 月 的 所 有 店 作为 控制 组 ， 下 个 月 的 所 有 店 
作为 实验 组 。 


vr 
wm 


和 


vi 
wr 


和 


将 大 的 地 理 区 域 分 成 小 的 地 理 区 域 ， 随 机 将 这 些微 区 域 分 进 控 制 组 
和 实验 组 。 


wm 
wr 


和 


动 动笔 解答 


你 认为 哪 一 种 分 组 方法 最 好 ? 


轮流 按 不 同 的 价格 给 顾客 结账 。 这 样 一 来 ， 一 半 顾 客 进 入 实验 组 ， 
一 半 顾 客 进入 控制 组 ， 店 址 不 再 成 为 混杂 因素 。 





和 
实验 组 。 








将 大 的 地 理 区 域 分 成 小 的 地 理 区 域 ， 随 机 将 这 些微 区 域 分 进 控制 组 
和 实验 组 。 





随机 选择 相似 组 
从 对 象 池 中 随机 选择 对 象 是 避免 混杂 因素 的 极 好 办 法 。 


在 将 对 象 随机 分 配 到 各 个 组 里 以 后 ， 最 终 的 结果 是 : 可 能 成 为 混杂 
因素 的 那些 因素 最 终 在 控制 组 和 实验 组 中 具有 同 票 同 权 。 











“部 沾 窒 区 并 范 菠 和 其 亿 灯 
到 城内 过 要 同 前 曲 点 。 


通过 随机 选择 组 成 各 个 组 的 成 员 ， 组 与 组 之 间 将 非常 相似 ， 因 而 县 
有 同比 性 


随机 访谈 
本 周 访问 : 
天 啊 ， 太 随机 了 吧 ! 


Head First: ”随机 先生 ， 感 谢 您 接受 我 们 的 采访 。 很 明显 您 频繁 出 
现在 数据 分 析 中 ， 您 能 来 真是 太 好 了 。 


随机 先生 : ” 莪 ， 我 每 一 秒 钟 的 行程 都 有 点 说 不 准 ， 我 没有 真正 的 
计划 。 我 能 来 这 里 嘛 ， 咽 ， 像 是 深 崩 子 深 过 来 的 。 


Head First: ” 有意思。 这么 说 您 对 于 自己 没有 什么 计划 或 设想 ? 
随机 先生 : 正 是 如 此 ， 东 一 郴 头 西 一 棒子 就 是 我 的 风格 。 


Head First: 那 你 为 什么 在 实验 设计 中 这 么 有 用 呢 ? 数据 分 析 讲 完 
的 不 就 是 秩序 和 方法 吗 ? 


随机 先生 : ” 当 分 析 师 通过 我 的 力量 来 选择 属于 实验 组 或 设计 组 的 
人 或 商店 〈 或 者 诸如 此 类 ) 时 ， 我 的 魔法 会 让 所 得 到 的 分 组 互 为 同类 。 
我 甚至 还 能 收拾 隐形 的 混杂 因素 ， 坚 无 问题 。 


Head First: 说 说 看 ? 


随机 先生 : ”假设 有 半数 人 受 茶 种 隐 性 混杂 因素 的 影响 ， 这 种 混杂 
因素 叫做 X 因 素 ， 捍 吓人 人 的， 对 吧 ? X 因 素 会 大 大 扰乱 你 的 分 析 结 果 。 
你 不 知道 这 种 因 系 是 什么 ， 也 没有 任何 关于 它 的 数据 ， 但 这 种 因素 一 直 
存在 ， 随 时 会 冒 出 来 。 


Head First: 但 观察 分 析 法 免不了 有 这 种 风险 。 


随机 先生 : 当然， 但 是 ， 假 定 你 在 实验 中 利用 我 来 将 人 和 群 分 进 实 
验 组 和 控制 组 ， 结 果 是 ， 两 个 组 中 的 X 因 素 最 终 分 量 一 样 。 如 果 总 人 数 
中 有 半数 人 含有 这 种 隐 性 因 系 ， 那 么 ， 划 分 后 的 每 个 组 中 也 有 半数 人 含 
有 这 种 隐 性 因素 。 这 就 是 随机 法 的 力量 。 


























Head First: 这么 说 X 因 素 可 能 仍然 会 影响 分 析 结 采 ， 但 对 两 个 组 
的 影响 是 完全 一 样 的， 这 意味 着 可 以 对 自己 的 检验 目标 进行 有 效 的 比 


较 ? 


随机 先生 : ”的 确 如 此 ， 随 机 控制 是 各 种 实验 的 黄金 标准 。 没 有 它 
你 也 能 做 实验 ， 但 要 是 有 了 它 ， 你 束 能 做 得 最 好 。 随 机 控制 实验 能 让 你 
最 大 限度 地 接近 数据 分 析 的 核心 : 证 明 因 果 关 系 。 


Head First: 您 是 说 随机 控制 实验 能 证 明 因果 关系 吗 ? 


随机 先生 : ” 喔 , “证明” 是 一 个 非常 非常 重 的 词 ， 我 得 回避 这 种 说 
法 ， 但 请 想 想 随机 控制 实验 能 让 你 得 到 的 结果 : 你 在 检验 两 个 组 ， 除 了 
要 检验 的 变量 ， 两 个 组 在 各 个 方面 部 一 样 ， 如 果 两 个 组 的 检验 结果 有 任 
何不 同 ， 除 了 归结 于 这 个 变量 还 能 归结 于 什么 呢 ? 


Head First: ” 那 我 怎么 进行 随机 分 配 呢 ?假定 我 有 一 份 数 据 表 ， 想 
要 随机 选择 表 中 数据 ， 将 表 一 分 为 二 ， 该 怎么 做 ? 


随机 先生 : ”很 简单 。 在 你 的 电子 数据 表 程 序 中 ， 创 建 一 列 ， 称 为 
随机 (Random) ， 将 下 面 这 个 公式 输入 第 一 个 单元 格 : =RAND()， 对 
表 中 的 每 个 数据 复制 和 粘贴 这 个 公式 ， 再 对 随机 列 进 行 排 序 。 行 了 ! 然 
后 就 可 以 将 数据 表 分 成 控制 组 和 多 个 实验 组 ， 实 验 组 的 个 数 根据 需要 决 
定 。 这 就 万 事 俱 备 了 ! 




















动 动笔 





现在 该 设计 你 的 实验 了 。 既 然 你 已 经 了 解 了 观察 研究 法 和 实验 研究 
法 、 控 制 组 和 实验 组 、 混 杂 因 系 和 随机 性 ， 你 就 应 当 能 够 设计 合适 
的 实验 ， 找 到 想 要 的 答案 。 


你 试图 证 明 什 么 ?为 什么 ? 


什么 样子 ? 


号 
Ra 


~ 


"| 


组 


昌 和 实验 


空 制 


你 的 


如 何 避 免 混杂 因素 ? 









哩 |! 你 应 该 增加 一 个 实 
验 组 ， 让 人 们 党 得 星 巴 
仕 很 有 价值 ， 这 样 我 们 
才 知 道 谁 是 对 蝎 一 一 是 
我 还 是 首 斋 财务 官 ] 










你 刚 设计 好 目 己 的 第 一 个 随机 控制 实验 。 
它 会 如 你 所 愿 好 好 发 挥 作用 吗 ? 
你 试图 证 明 什么 ?为 什么 ? 

















准备 惑 绪 ， 开 始 实验 


在 进行 实验 前 ， 让 我 们 最 后 再 看 一 眼 我 们 的 整个 程序 ， 总 结 一 下 哪 
个 策略 最 好 。 


将 数据 衣 划 分 为 
微 区 域 


将 徽 区 域 随机 分 配给 
控制 组 和 实验 组 





a | 让 匠 们 区 实 堆 
吧 | 


| 
收集 结果 D 


| 





结 朱 在 此 
星 巴 仕 依 计 行事 ， 用 了 几 个 星期 做 这 个 实验 。 与 其 他 两 个 组 相 比 ， 


价 信 游说 组 的 日 营业 收入 立即 上 天， 而 降价 组 的 党 业 收入 其 实 是 与 控制 
组 持平 。 


单 店 日 平 向 路 入 





aa a 
其 直 闪 这 里 关 妆 -一 


流 成 笠 策 厂 看 未 设 权 的 入 益 卉 ， 人/ 

这 张 图 非常 有 用 ， 因 为 它 进行 了 有 效 的 比较 。 你 选择 了 同样 的 
组 ， 然 后 区 别 对 符 ， 于 是 现在 的 确 可 以 将 不 同 咖啡 店 营 业 收 入 上 的 差异 
归 因 于 正在 检验 的 因素 。 


这 些 结果 非常 棒 ! 
We 比 降 价 和 维持 现状 带 来 了 更 高 的 销量 ， 看 来 你 已 经 找 
到 答案 。 


星 巴 仕 找到 了 与 经 验 吻 合 的 销售 策略 


在 你 开始 这 段 实验 历程 的 时 候 ， 星 巴 仕 局 面 混 乱 。 你 小 心地 评估 观 
罕 调 碍 数据 ， 从 星 巴 仕 几 个 大 人 物 那里 了 解 到 更 多 的 业务 信息 ， 从 而 创 
建 了 随机 控制 实验 。 


实验 进行 了 有 效 的 比较 ， 表 明 游 说 人 们 星 巴 仕 咖 啡 有 价值 是 比 降 价 
和 维持 现状 更 有 效 的 提高 销量 的 办 法 。 







起 真 为 泛 个 结果 语 到 高 兴 ! 
我 正在 下 仿 在 所 有 的 分 店 执 行 这 
个 策略 ，Sorto 区 各 分 声效 外 一 一 既然 
oo 网 项 客 苍 钱 花 得 搅和 开心 ， 缆 就 未 
用 管 他 们 了 ! 








3 ”最 优化 
寻找 最 大 值 


要 是 有 个 橡皮 网 就 更 带劲 
Ft 





有 些 东 西 人 人 部 想 多 多 荔 善 。 


为 此 我 们 上 下 求索 。 要 是 能 用 数字 表示 我 们 不 断 妃 求 的 东西 利 
润 、 钱 、 效 率 、 速 度 等 ， 实 现 更 高 目标 的 机 会 束 在 眼前 。 有 一 种 数据 分 
析 工 具 能 够 帮助 我 们 调整 决策 变量 ， 找 出 解决 方案 ”和 优化 点 ， 使 我 们 
最 大 限度 地 达到 目标 。 本 章 将 使 用 这 样 一 种 工具 ， 并 通过 强大 的 电子 表 
格 软 件 包 Solver 来 实现 这 个 工具 。 











现在 是 浴盆 玩具 游戏 时 间 


你 受 雇 于 浴盆 宝 公 司 ， 这 家 公司 执 全 国 橡皮 了 鸭 和 橡皮 鱼 浴盆 玩具 生 
产 之 牛 耳 ， 信 不 信 由 你 ， 浴 盆 玩 具 是 一 项 正 正 经 经 的 业务 ， 利 润 丰厚 。 


三 家 想 多 赚 点 ， 听 说 时 下 盛行 通过 数据 分 析 打 理 业 务 ， 于 是 给 你 来 
了 电话 。 









我 全 年 条 巾 泛 具 眩 对 
谍 会 重 沈 壮 卡 青 公 司 。 


这 是 你 的 客户 浴盆 宝 公司 给 你 发 来 的 电子 邮件 ， 说 明了 他 们 雇佣 你 


的 原因 。 





发 件 人 : 浴 答 宝 
收 件 人 大，Head First 
主 杜 : ”请 提供 产品 红 合 爷 和 

售 蝎 密 户 这 祥 撕 
RE 述 地 地 需求， 
能 联系 上 您 真是 太 杂 了 1 


我 们 朴 尽 量 提 高 允 润 ， 为 此 必须 确保 覃 皮 驰 刊 尿 贞 


鱼 的 产 号 孝 正 合 十 。 我 们 需要 您 者 亿 技 出 理想 的 产 
吊 丝 含 ， 这 两 科 产品 我 们 各 应 该 生产 多 少 ? 


期 待 您 开始 工作 ， 我 们 对 您 人 总 已 久 。 


吾 礼 


你 需要 哪些 数据 才能 解决 这 个 问题 ? 


发 件 人 : 浴盆 宝 

收 件 人 : Head First 

主题 : 请 提供 产品 组 合 分 析 

亲爱 的 分 析 师 : 

能 联系 上 您 真是 太 好 了 ! 

我 们 想 尽 量 提 高 利润 ， 为 此 必须 确保 橡皮 鸭 和 橡皮 鱼 的 产量 都 正 合 
适 。 我 们 需要 您 帮忙 找 出 理想 的 产品 组 合 : 这 两 种 产品 我 们 各 应 该 
生产 多 少 ? 

期 待 您 开始 工作 ， 我 们 对 您 仰 募 已 久 。 

致 礼 


你 需要 哪些 数据 才能 解决 这 个 问题 ? 





数据 放大 


细 看 一 下 你 需要 了 解 的 信息 。 


可 以 将 所 需要 的 数据 分 成 两 类 : 无 法 控制 的 因素 ”， 可 以 控制 
的 因素 。 


m 格 些 刍 的 及 涧 如 何 。 海 以 听 为 天 润 知 何 
泛 咯 是 你 腕 这 


控制 鹃 因素 ， 。 | 家 多 少 冤 胶 可 以 用 夷 。 ”年 产 模 点 人鱼 要 月 多 少 [. 认 
ea 。 牛 产 模式 者 可 月 各 少 b 间 
Ded de 后 胶 口 以 抽 4 区 








接 独 是 客户 为 了 尽量 提高 利润 而 要 你 弄 清楚 的 基本 问题 。 最 
后 ， 就 是 你 能 控制 的 : 这 两 个 问题 的 答案 。 


这 此 是 你 能 @ 生产 多 少 橡皮 鱼 
控制 的 因素 。 


sm 生产 多 少 橡皮 鸭 





你 需要 得 到 有 关 能 控制 的 因素 和 不 能 控制 的 因素 的 可 靠 数 


你 和 


数 。 你 最 终 退 求 的 无 非 是 利润 
月 利润 水 平 的 办 法 。 


但 选择 哪 种 产品 组 合 将 会 


BE 控 制 的 变量 受到 约束 条 件 的 限制 
这 些 考虑 事项 被 称 为 约束 条 件 


， 而 找到 正确 的 产品 


受到 约束 条 件 的 限制 。 


发 件 人 - 
版 御 人 ， 
三 题 : 


浴 僵 衬 

Mesad First 

可 笔 帮 压 的 信息 

亲 凑 的 苍术 帅 

问 得 灯 。 关 十 凉 护 供应 嫩 ， 我 们 的 黎 胶 馈 生 产 500 
妹 梅 虚 力 或 400 条 述 皮 色 。 如 所 我 作 坎 特 牛 产 400 
条 悍 良 鱼 ， 就 没有 术 胶 可 以 生产 焰 皮 鸣 了 ， 反 过 来 
也 在 一 祥 


我 们 鸭 时 亲 铭 甩 来 生产 400 只 访 志 虱 或 300 芭 介 皮 


eer ee 
钮 人 台 ， 如 果 想 计 产 品 本 下 个 月 上 某 移 佑 ， 我 们 的 产 
昌都 不 会 高 于 400 只 任 皮 逢 条 300 条 格 忆 鱼 ， 

最 后 ， 每 只 耶 皮 陨 的 和 和 润 寻 5 美元 ， 每 尔 樟 去 让 
利润 是 4 关 元 。 这 些 们 点 有 用 忆 ? 

锥 神 . 





因为 它们 将 决定 问题 的 有 关 参 
组 合 束 是 确定 下 个 





决策 变量 是 你 能 控制 的 因 妓 
约束 条 件 不 会 告诉 你 如 何 实现 最 大 利润 ， 它 们 只 告诉 你 在 实现 利润 
最 大 化 的 过 程 中 无 法 做 到 的 事 。 
相反 ， 决 策 变量 却 是 你 能 “控制 的 因素 。 你 可 以 选择 生产 多 少 只 橡 
皮 鸭 ， 多 少 条 橡皮 鱼 ;在 不 超出 约束 条 件 的 情况 下 ， 你 的 工作 就 是 选择 
一 个 组 合 ， 实 现 最 大 利润 。 
es 
种 产 


六 
了 
PRR 






最 好 别 牵 出 
约束 条 件 ! 


动 动脑 





既然 如 此 ， 你 觉得 应 该 怎么 处 理 约束 条 件 和 决策 变量 才能 找 出 实现 
最 大 利润 的 办 法 ? 


你 碰 到 了 一 个 最 优化 问题 


当 你 希望 尽量 多 获得 (或 少 获 得 ) 某 种 东西 ， 而 为 了 实现 这 个 目的 
再 要 改变 其 他 一 些 量 的 数值 ， 你 就 碰 到 了 一 个 最 优化 问题 。 


在 本 例 中 ， 你 想 通 过 改变 决策 变量 ， 即 所 生产 的 橡皮 鸭 和 橡皮 鱼 的 
数量 ， 实 现 利 润 最 大 化 。 











售 疯 冰 业 六 匡 
上 








如何 从 这 里 …… 








然而 ， 为 了 实现 利润 最 大 化 ， 你 必须 遵守 约束 条 件 : 两 种 玩具 的 生 
产 时 间 和 橡胶 供应 量 。 

为 了 解决 一 个 最 优化 问题 ， 你 需要 将 决策 变量 、 约 束 条 件 及 硕 望 最 
大 化 的 目标 合并 成 一 个 目标 函数 。 


借助 目标 函数 发 现 目标 


你 希望 最 大 化 或 最 小 化 的 对 象 束 是 目标 ， 目 标 函 数 ” 则 可 以 帮助 你 
找 出 最 优化 结果 。 


你 的 目标 函数 用 数学 方法 来 表达 是 这 个 样子 : 








>》 过 


一 有 尝 优 化 语 电 使 用 苞 上 月 标 芒 工 更 区 莒 六 


别 吓 坏 了 ! 整个 等 式 的 意思 是 ， 通 过 将 每 个 决策 变量 乘 以 一 个 约束 
条 件 ， 就 能 算出 可 能 实现 的 最 大 值 *P”(〈 利 润 ) 。 


约束 条 件 和 决策 变量 在 这 个 等 式 中 共同 作用 ， 形 成 橡 谈 鸭 和 橡皮 鱼 
的 利润 ， 最 终 形成 你 的 目标 : 总 利润 。 





pe 信 项 中 自己 籁 过 到 
Ww 的 目 标 闪 高 盐 归 . 
人 ，, 和 < 
。 栋 皮 鱼 利润 


橡皮 转 利 润 
任何 最 优化 问题 都 有 一 些 约束 条 件 和 一 个 目标 函数 。 
考 考 你 


你 认为 应 将 哪些 特定 值 作为 约束 条 件 ，“c ”和 “c,”? 


你 的 目标 函数 
需要 放 入 目标 函数 的 约束 条 件 是 每 种 玩具 的 利润 。 
下 面 是 另 一 种 认识 该 数学 函数 的 方法 。 





( 2 ) (As pi) -全 
这 是 来 自 溢 尔 实 皇 密 应， 


通过 销售 橡皮 鸭 和 橡皮 鱼 获得 的 利润 等 于 每 只 橡皮 鸭 的 利润 乘 以 橡 
皮 鸭 的 数量 再 加 上 每 条 橡 谈 鱼 的 利润 乘 以 橡皮 鱼 的 数量 。 


每 只 橡皮 罗 ”橡皮 罗 的 。” ， 『 ”每 条 橡皮 鱼 。。 橡皮 鱼 
( ii ma ) +:( nin “° ws 


\ _ 一 一 /一 ~ ie 
橡 虚 稳 吕 剂 润 1 《 樟 上 记 赣 蕊 利润， 


现在 可 以 试 着 做 一 些 产 品 组 合 。 你 可 以 在 等 式 中 填 入 一 些 代表 每 种 
产品 利润 的 数值 ， 以 及 一 些 假定 的 数量 。 


) = 利润 











的 > 车 尔 冰 定 电 Oa 及 襄 
i 二 使 ,这 
就 是 你 奈 得 的 刊 疝 . 
严 


/ 
A 
pd 


( 5 美元 利润 。* 。 100 只 鸭 ) - ( 4 美元 利 洞 ”: 50 条 鱼 ) 700 拓 元 





这 个 目标 函数 说 明 下 个 月 将 赚 得 700 美 元 的 利润 。 我 们 还 要 用 这 个 
目标 函数 试 算 许多 其 他 产品 组 合 。 











喝 ! 其 他 约束 条 件 由 
何 呢 ? 邮购 橡 腑 供应 
量 和 生产 时 间 ? 





列 出 有 其 他 约束 条 件 的 产品 组 合 


橡胶 量 和 时 间 量 限制 了 能 够 生产 的 橡皮 鱼 的 数量 ， 着 手 考虑 这 些 约 
来 条 件 的 最 好 途径 是 想象 一 些 假定 的 产品 组 合 。 让 我 们 从 时 间 约束 条 
开始 。 













臣 们 的 时 间 够 川 永生 产 400 只 橡皮 职 或 300 
条 请 点 佐 ， 这 还 所 看 亚 花 多 少 对 五 订 各 受 桩 
版 。 元 论 如 何 引 人 富 ， 如 采 芒 让 产品 千 下 个 月 
上 课 销 告 ， 我 们 的 产 摆 都 不 全 高 十 400 兵 检 

诺 鸭 和 300 考 橡皮 和 皇 。 


这 就 是 他 们 所 说 的 








假设 的 产品 组 合 1 可 能 是 ; 生产 100 只 橡皮 鸭 和 200 条 橡皮 鱼 。 你 可 
形 图 中 绘制 出 这 一 产品 组 合 〈 以 及 其 他 两 种 产品 组 合 ) 
条 o 


这 杂 攻 全 素 能 灶 产 训 
帮 皮 四 菌 蜡 福 南 和， 


党 第 室 下 个 月 独 生 站 用 问 能 由 六 浴 钙 韦 下 个 习 的 竺 六 时 名 能 生 褒 


400 只 超度 300 千 强 皮 二 





ley 
过 从 线 人 未 夜光 许 时 阅 和 内 re > 
侍 生 产 肪 祝 友 鱼网 产量 ， 


产品 组 合 1 并 未 超出 任何 约束 条 件 ， 但 其 他 两 种 组 合 超出 了 约束 条 
i 产品 组 合 2 橡皮 鱼 的 产量 太 高 ， 产品 组 合 3 橡 挛 鸭 的 产量 太 高 。 











通过 这 种 方法 观察 约束 条 件 已 经 是 一 个 进步 ， 但 我 们 需要 更 好 的 观 
察 方法 。 我 们 还 有 更 多 的 约束 条 件 需 要 省 理 ， 如 果 能 在 一 张 图 形 里 观察 
两 种 约束 条 件 ， 那 束 更 好 了 。 


考 考 你 


你 打算 如 何在 一 张 图 形 里 把 橡皮 鸭 和 橡皮 鱼 假设 产品 组 合 的 约束 条 件 都 
形象 地 表示 出 来 ? 


在 同一 张 图 形 里 绘制 多 种 约束 条 件 


我 们 可 以 把 两 种 时 间 约 束 条 件 画 在 同一 张 图 形 里 ， 图 中 不 再 用 条 形 
图 代表 每 种 产品 组 合 ， 而 是 用 虚线 代表 。 这 样 的 图 形 能 够 方便 地 同时 表 
示 两 种 时 间 约 束 条 件 。 











灌区 宝 下 个 月 的 生产 对 入 紫 生产 治 合 宝 下 么 月 的 生产 对 问 第 生产 
300 茶 亨 皮 所 








SS 


,i 
100 200 300 400 500 
蕉 庆 半 


我 们 还 可 以 用 这 张 图 形 来 表示 橡胶 量 约束 条 件 。 实 际 上 ， 可 以 将 任 
何 数 量 的 约束 条 件 画 在 这 张 图 形 上 ， 然 后 考虑 有 可 能 采用 的 产品 组 


口 o 


合理 的 选择 都 出 现在 可 行 区 域 里 


以 Y 轴 表示 橡皮 鸭 ， 以 X 轴 表示 橡皮 鱼 ， 这 样 就 能 很 方便 地 看 出 哪 
种 产品 组 合 是 可 行 的 ”。 实 际 上 ， 产 品 组 合 所 在 的 由 约束 线 围 成 的 空间 
被 称 为 可 行 区 域 。 


每 当 在 图 形 中 增加 约束 条 件 ， 可 行 区 域 就 会 发 生变 化 ， 你 则 可 以 通 
过 可 行 区 域 来 找 出 最 优点 。 





这 是 可 行 区 域 . 


100 200 300 400 500 
称 应 鱼 






动 动笔 


让 我 们 增加 一 些 其 他 的 约束 条 件 ， 这 些 条 件 表明 ， 按 照 给 定 的 橡胶 
量 能 够 生产 的 橡皮 鱼 和 橡皮 卜 的 数量 。 


这 是 浴盆 宝 的 说 法 : 


一 杂 和 橡皮 色 纲 拯 胶 用 量 比 一 只 橡 六 vv 
pa i 向 得 好 。 关 于 种 胶 全 应 王 : 我 们 匆 橡 胶 够 


Re 生产 500 妈 株 点 匠 或 400 条 昼 皮 鱼 。 刘 时 


我 们 点 的 和 牛 产 400 条 杠 点 鱼 ， 城 没有 柏 腔 
可 以 生产 橡 六 恩 了 ， 到 过 米 记 是 一 样 


上 EE 本 > 


生 广 的 入 度 哆 疝 数 重 特 限制 所 能 生 
产 鹏 祝 皮 鱼 觅 数量 ， 





100 200 300 400 500 
橡皮 和 鱼 





辆 。 画 一 个 点 代表 一 个 产品 组 合 : 这 个 组 合 将 包含 400 条 橡皮 鱼 。 
按照 她 的 说 法 ， 如 果 生 产 400 条 橡皮 鱼 ， 就 没有 可 以 用 来 生产 橡皮 
鸭 的 橡胶 了 。 


画 一 个 点 代表 一 个 产品 组 合 : 这 个 组 合 将 包含 500 只 橡皮 鸭 。 
如 果 生 产 500 只 橡皮 鸭 ， 橡 皮 鱼 的 产量 将 为 零 。 


图 画 一 条 线 将 这 两 个 点 连 起 来 。 


新 的 约束 条 件 在 图 上 看 起 来 怎么 样 ? 


画 一 个 点 代表 一 个 产品 组 合 : 这 个 组 合 将 包含 400 条 橡皮 鱼 。 
按照 她 的 说 法 ， 如 果 生 产 400 条 橡皮 鱼 ， 就 没有 可 以 用 来 生产 橡皮 
豚 的 橡胶 了 。 


园丁 一 个 点 代表 一 个 产品 组 合 ， 这 个 组 合 将 包含 500 只 橡皮 鸭 。 
如 果 生产 500 只 橡皮 鸭 ， 橡 皮 鱼 的 产量 将 为 零 。 


加 画 一 条 线 将 这 两 个 点 连 起 来 。 


问 得 好 。 关 于 橡胶 供应 量 ; 我 们 的 橡胶 够 生产 500 只 橡皮 鸭 或 400 条 
橡皮 鱼 。 如 果 我 们 真 的 生产 400 条 橡 皮 鱼 ， 就 没有 橡胶 可 以 生产 橡 
皮 鸭 了 ， 上 反 过 来 也 是 一 样 。 


这 条 线 表 示 介 子 商 种 情 
| 各 空间 只 丛 ， 


| 这 一 点 表示 生产 400 条 
橡 鼎 鱼 ， 但 不 生产 橡皮 
| %. 


a 
100 | 旬 风 几 , 星 多 鱼 光 ， 1 、 有 


| 
100 200 300 400 500 
橡皮 和 鱼 





新 约束 条 件 改变 了 可 行 区 域 
增加 橡胶 量 约束 条 件 后 ， 可 行 区 域 的 形状 变 了 。 


在 增加 约束 条 件 之 前 ， 比 如 ， 你 本 来 能 生产 400 只 橡皮 鸭 和 300 条 橡 
皮 鱼 。 但 现在 ， 由 于 橡胶 短缺 ， 这 种 产品 组 合 不 再 可 能 实现 。 


这 些 区 城中 鹏 禄 皮 允 7/ 禄 
皮 鱼 组 合 一 个 也 不 能 用 . 


所 十 可 能 季 用 抽 产 品 组 
合 都 得 出 规 在 这 里 面 . ”100 200 300 400 500 
橡 过 色 





在 图 上 画 出 息 种 


C 朋 合 的 位 置 。 


100 200 300 400 500 


橡皮 鱼 








下 面 是 几 种 可 能 采用 的 产品 组 合 。 
这 些 组 合 在 可 行 区 域 里 吗 ? 
在 图 上 为 每 种 产品 组 合 画 一 个 点 。 
各 种 产品 组 合 将 带 来 多 少 利润 ? 
用 下 面 的 等 式 来 确定 每 种 产品 组 合 的 利润 。 
100 只 橡皮 鸭 和 200 条 橡皮 鱼 利润 : 


300 只 橡皮 鸭 和 250 条 橡皮 鱼 利润 : 


则 日 妹 贡 数 确 完 利 洞 。 
(i (= 


你 刚才 画 出 了 三 种 橡皮 鸭 和 橡皮 鱼 的 产品 组 合 ， 并 计算 了 利润 。 发 
现 什么 了 ? 


300 怠 相 皮 鸡 和 
250 人 条 榴 息 鲍 . 


_ 100 凡 接 良 约 和 
20D 条 的 皮 备 。 


坟 只 橡 冰 鸭 和 
300 笃 搬 育 二 ， 


100 200 300 400 500 
橡皮 鱼 





300 只 橡皮 鸭 和 250 条 橡皮 鱼 。 
利润 : (5 美元 利润 x300 只 鸭 ) + 〈4 美 元 利润 x250 条 鱼 ) 





100 只 橡皮 鸭 和 200 条 橡皮 鱼 。 








利润 : 45 美 | 兽 x100 只 鸟 ) + (4 美元 利润 x200 条 色 )》 
= 下 让 
只 橡皮 鸭 和 300 条 橡皮 鱼 。 
利润 : (G5 元 利润 x50 只 鸟 ) + (4 美元 | 润 x300 条 鱼 ) 
天 口 > 





现在 ， 你 唯一 需要 做 ”的 就 是 答 试 每 一 种 可 能 采用 的 产品 组 
合 ， 然 后 看 看 哪 一 种 利润 最 高 ， 对 吗 ? 














即使 是 可 行 区 域 里 鬼 一 小 寺 ， 
也 包含 了 系 计 其 数 可 以 系 用 的 
产品 组 合 ， 你 别 想 让 我 一 个 一 个 
全 过 韦 ， 


你 不 必 一 一 尝试 。 


为 Microsoft Excel 和 OpenOffice 都 有 称 手 的 小 函数 ， 可 以 麻利 地 解 
决 最 优化 问题 。 有 具体 用 法 请 看 下 一 页 .…… 


用 电子 表格 实现 最 优化 


Microsoft ”Excel 和 OpenOffice 都 有 称 手 而 小 巧 的 函数 插件 ， 英 文 叫 
做 Solver ， 中 文 叫做 求解 器 ， 可 以 兵 利 地 解决 最 优化 问题 。 


只 要 插入 约束 条 件 ， 写 下 目标 函数 ， 其 他 的 算术 工作 就 区 给 Solver 
吧 。 请 看 这 张 电子 表格 ， 其 中 有 你 从 浴盆 宝 公司 收集 到 的 所 有 数据 。 


米 


着 快 淋 下载! 


wwwhesafirstiabs. com/bookshfda’ 
bathing_ fieras_unilmited xls 


Tm Friends Uniimited 
2 Man ee for Decembter 
3 
4 Count c= 
5 Duck ~ 100 
5 Fish 100 


7 
8 Rubber pellets 
于 


Neeged per Uni Used gy 
100 410000| 一 一 
i125 22500 

12 

13 Total pellets used 22500 

i4 Pallat supaly SOOOD \ 

5 机 起 由 一 履 熟 

15 Unit profit 钞 计 了 区 成 历 

17 Duck 李 皮 幅 和 要 洒 100 并 机 

1 Fish 怠 - 站 ; 4 奖 

pe WA 





长 





这 个 电子 表格 里 有 儿 个 简单 的 公式 。 首 先 ， 这 里 有 一 些 数 字 可 以 算 
出 橡胶 需求 量 。 浴盆 玩具 的 沟 成 单位 是 称 胶 片 ， 单元 格 “B10:B11” 的 公 
式 用 于 计算 所 需要 的 橡胶 片 的 数量 。 


第 二 ， 单 元 格 “B20” 的 公式 用 于 将 橡皮 鱼 的 数量 和 橡皮 胸 的 数量 分 
别 与 相应 的 单 件 利润 相 乘 ， 得 出 总 利润 。 





如 军用 网 是 DpenGO8Vice， 或 如 果 2xcel 
村 单 中 没有 Soluer， 则 请 看 附录 三 。 


试 试看 ， 点 击 Data (数据 ) 菜单 下 的 Solver 按 
钮 ， 结 果 如 何 ? 


动 动笔 
让 我 们 看 一 下 Solver 对 话 框 ， 搞 清楚 它 是 如 何 按 照 你 刚 学 会 的 原理 


进行 工作 的 。 
用 箭头 画 出 每 个 元 素 在 Solver 对 话 框 中 的 位 置 。 








殉 股 和 是 间 
关 第 甩 电 约束 订 件 四 糙 
生产 议 糠 史 NA 
雹 涡 数 量 
二 Yasueok 0 
Guess | 
OC ON CO 
garse 


-| |EBeaete -| 








网 戎 未 画册 条 个 无 素 在 
sotuer 对 话 竹 中 抑 己 要。 


你 认为 目标 函数 会 写 在 哪里 ? 


动 动笔 解 咎 
Solver 对 话 框 中 的 空白 位 置 该 如 何 与 你 刚刚 学 会 的 最 优化 概念 对 应 


起 来 呢 ? 
用 箭头 画 出 每 个 元 素 在 Solver 对 话 框 中 的 位 置 
月 斥 ~ 


多 此 条 性 
9 
2 "u 凋 日 标 称 元 目 斥 划 


尖 祠 avper 





闫 大 站 基 








| 
法 生 灾 嘲 站 你 竹 氧 杰 
部 人 坑 ， 忆 便 皇 由 下村， 


全 各 笠 - 才 的 ! 





目标 冰片 轧 在 这 个 半 才 .条 里 . 





16 Unit profit 
17 Duck $ 5 
18 Fish $ 





19 
20 Total profit 
zl 





一 大 里 于 

既然 已 经 定义 好 最 优 模 型 ， 现 在 就 该 将 组 成 模型 的 元 素 插入 
Excel， 让 Solver 来 为 你 完成 这 个 数字 游戏 。 
圆 。 设 定 你 的 目标 单元 格 ， 使 其 指向 你 的 目标 函数 。 


找 出 你 的 决策 变量 ， 将 决策 变量 添加 到 “Changing Cells”《〈 更 改 单 
元 格 ) 空白 处 。 


2 
添加 约束 条 件 。 
单 击 Solve 〈 求 解 ) ! 





这 坚 是 束 驻 
狼 求 条 他。 有 cs Wm 


dw ww Dm Oe lo | 
Drare ccb- 


忘 了 时 间 
漆 制 杀 科 1 





单 击 Solve (求解 ) ， 结 果 如 何 ? 


Solver 一 气 呵 成 解决 最 优化 问题 


干 得 好 。Solver 一 皮 眼 就 能 为 你 找到 最 优化 解决 方 采 。 要 是 浴盆 宝 
想 实现 最 大 利润 ， 只 要 生产 400 只 橡皮 鸭 和 80 条 橡皮 鱼 就 行 了 。 






id 站 凡人， Wa pb MA Mesh he .> ， 
让 : 
E Hom ee ora Re ee 局 二 -3 年 















Bathing Friends UVrvted 
Manufacturing plan For December 





1 
2 
= 
< Count 
5 
6 
?7 


| 

| 

| 

| 
Socher 伐 黄 了 一 淮 此 全 拒 | ee 30 
出 实 失 如 认 利润 次 租 合 . peliets 
人 




















Duck 400 
Needed per unlt Used 
| 10 Duck 100 40000 
i1 Fish 125 10000 
2 
| 13 Total pellets used 50000 
着 起 录 和 可 胶 也 用 号 了 ， | Pellet suppily 7 50000 
16 [i 
2 2 5 
F $$ 











eg 


桂 前 利润， 


而 且 ， 如 果 你 比较 一 下 Solver 的 计算 结束 和 你 目 己 国 的 网， 就 会 及 
现 ，Solver 所 认为 的 最 精确 点 位 于 可 行 区 域 的 外 限 上 。 









顺 召 六 不 篆 。 弄 在 租 
讶 说 你 钙 训 人 么 构 岂 这 
个 末 驴 部 ? 





最 好 回 客 己 解 释 一 下 你 都 亿 了 些 什 么 .………. 


动 动笔 


你 该 如 何 回 客户 解释 自己 忙 了 些 什 么 呢 ? 摘 述 一 下 这 些 图 形 ， 它 们 
有 什么 意义 ， 它 们 能 得 出 什么 结果 ? 





Bethiny Frergs Ur te 


owtact ring Fls™ er Decere- 


Coumt 
uk <s02 
3 EB) 


Rubber peliets 


Wei Per writ In 
yu 中 107 i) 
-sh 125 125-3 


3 ToDI II usec 50003 
3681Rt 3U2pI 50003 


a A A ON 8 Unit prnfit 
7 Nk 5 
-由 a 


[18 
“20 Totalpmot [= 01 
21 





dd 


5 


该 怎么 给 客户 解释 你 所 发 现 的 结果 呢 ? 








100 200 300 40t 











Rubber pellets 

| Needed per unit Used 

Duck 40000 
Fish 10000 





16 Unit profit 
17 Duck 
18 Fish 





利润 跌 穿 地 板 
你 刚 从 浴盆 宝 得 知 关于 你 的 分 析 结果 的 消息 .…… 





发 件 人 : 浴盆 宝 

收 件 人 : Head First 

主题 : 你 的 “分 析 ” 带 来 的 结果 

亲爱 的 分 析 师 : 

坦白 地 说 ， 我 们 惊 呆 了 。 我 们 所 生产 的 80 条 橡皮 鱼 全 部 卖 光 了 ， 却 
只 卖 出 了 20 只 橡皮 了 鸭 ， 就 是 说 我 们 只 得 到 了 420 美 元 的 利 油 ， 你 应 
该 看 得 出 来 ， 这 比 你 为 我 们 估计 的 2 ” 320 美元 的 利润 要 低 得 多 。 显 
然 ， 我 们 想 要 比 这 更 好 的 结 

我 们 以 前 从 来 没有 经 历 过 这 样 的 橡皮 鸭 销 量 ， 所 以 我 们 暂且 不 责怪 
你 ， 除 非 我 们 自己 能 够 对 所 发 生 的 情况 进行 评估 。 你 也 许 也 想 自 行 
分 析 一 下 。 

致 礼 





还 剩 下 将 多 鸭 凶 1 





这 可 真是 个 坏 消息 ”。 橡 皮 鱼 卖 光 了 ， 却 没有 人 买 橡皮 胸 。 看 起 来 
你 出 差错 了 。 











我 起 听 听 你 网 
解释 ， 





你 的 模型 只 是 摘 述 了 你 规定 的 情况 


你 的 模型 告诉 你 如 何 实现 最 大 利润 ， 但 仅仅 是 在 你 所 规定 的 约束 条 
ee 


你 的 模型 接近 事实 ， 但 永远 无 法 完美 ， 有 时 候 ， 这 种 不 完美 会 导致 











用 于 生产 橡皮 
级 的 时 间 


坑 实 此 这 个 模型 人 


复 条 得 多 . 


但 这 要 紧 吗 ? 





我 们 最 好 记 住 一 位 著名 统计 学 家 说 的 这 段 赖 皮 话 : 
“一 切 模型 都 是 错误 的 ， 但 其 中 一 些 是 有 用 的 。?” 
一 一 George Box 


你 的 分 析 工 具 不 可 避免 地 会 简化 实际 情况 ， 但 如 果 你 的 假设 ”和 数 
据 都 是 正确 的 ， 那 么 这 些 工具 就 相当 可 靠 。 


你 的 目标 应 该 是 尽量 创建 最 有 用 的 模型 ”， 让 模型 的 不 完美 相对 于 
分 析 目 标 变 得 无 足 轻重 。 








那 我 该 如 何 知道 我 
的 模型 是 否 具有 正 
确 的 假设 呢 ? 





按照 分 析 目 标 校正 假设 


你 无 法 规定 全 部 假设 条 件 ， 但 只 要 缺失 一 个 重要 的 假设 条 件 ， 分 析 
结果 天 可 能 毁 挥 。 


你 要 不 停 地 追问 自己 : 规定 的 假设 条 件 应 该 详尽 到 什么 程度 ? 这 由 
分 析 的 重要 性 来 决定 。 





你 的 分 由 有 多 重要 ? 
你 的 作 设 应 该 省 R 到 | 
i 什么 程度 ? 瑟 下 你 认为 自己 所 了 十 
谁 在 乎 ? 别 紧张 了 ， 花 的 每 一 利于 。 以 及 你 认 
个 一 两 分 钟 就 和 为 自己 所 不 阴 的 所 一 


动 动笔 


为 了 让 你 的 最 优化 模型 重新 产生 效果 ， 需 要 加 入 哪些 假设 条 件 ? 


动 动笔 解答 


有 没有 一 种 假设 可 以 帮助 你 优化 模型 ? 














世上 没有 伊 问 题 


问 : ”万 一 不 靠 谱 的 假设 成 真 ， 也 就 是 人 们 什么 都 乐意 买 ， 结 果 会 
怎么 样 呢 ? 最 优化 方法 会 有 效 吗 ? 


答 : 可 能 会 。 如 果 你 可 以 假设 所 生产 的 每 一 件 产 品 都 将 卖 掉 ， 那 
么 ， 利 润 最 大 化 工作 将 主要 围绕 调整 产品 组 合 展开 。 


问 : ”可 要 是 我 设 定 一 个 目标 函数 指出 如 何 让 橡皮 鸭 和 橡皮 鱼 的 产 
量 最 大 ， 结 果 会 怎么 样 呢 ? 会 不 会 是 这 样 : 要 是 样 样 东西 都 能 夹 出 去 ， 
我 们 该 算计 的 就 是 如 何 生 产 更 多 产品 。 


答 : 这 是 一 个 很 好 的 想法 ， 但 要 记 住 你 有 约束 条 件 。 浴 贫 宝 的 联 
系 人 告诉 过 你 ， 能 够 生产 的 橡皮 鸭 和 橡皮 鱼 的 数量 既 受 时 间 的 限制 ， 也 
受 橡皮 供应 量 的 限制 ， 这 些 部 是 你 的 约束 条 件 。 


问 : 最 优化 听 起 来 很 狭义 。 只 有 在 你 有 一 个 想 实现 最 大 化 的 数 
值 ， 而 且 有 一 些 称 手 的 等 式 可 以 用 来 找 出 相应 的 正确 数值 的 时 候 ， 才 能 
使 用 最 优化 这 个 工具 。 


答 : ”但 你 可 以 用 开阔 得 多 的 思维 方式 来 思考 最 优化 。 最 优化 思维 
方法 的 最 终 目的 是 得 出 自己 希望 实现 的 目标 ， 然 后 小 心地 鉴别 会 影响 实 
现 这 个 日 标的 约束 条 件 。 通 常 ， 约 束 条 件 能 够 以 定量 方式 来 表现 ， 于 是 
Solver 之 类 的 算法 软件 就 能 发 挥 作 用 了 。 























问 : 这么 说 ， 只 要 我 的 问题 能 够 以 定量 方式 来 表示 ，Solver 就 能 
为 我 完成 优化 工作 。 


答 : Solver 可 以 解决 许多 定量 问题 ， 但 Solver 主 要 是 一 个 解决 线性 
编程 问题 的 工具 ， 优 化 问题 还 有 许多 其 他 类 型 ， 可 以 用 各 种 算法 来 求 
解 。 要 是 你 想 多 学 几 招 ， 可 在 网 上 搜索 运算 研究 。 





问 : ”要 是 我 用 最 优化 方法 来 处 理 这 个 新 模型 ， 人 们 就 能 买 到 想 买 
的 东西 吗 ? 


答 : ”是 的 ， 前 提 是 我 们 得 知道 如 何 把 人 们 的 喜好 添加 到 最 优化 模 


练习 


这 里 有 一 些 橡皮 了 胸 和 橡皮 鱼 的 历史 销售 数据 。 

这 些 信 息 可 能 会 告诉 你 为 什么 人 们 看 起 来 没有 兴趣 购买 橡皮 鸭 。 
0 
\ 好 ? 
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这 沁 销 吕 数 据 是 整个 焰 讶 新 只 行业 的 拖 课 ， 并 < 
非 浴 存 密 一 鹿 。 前 惧 设 是 一 个 概 将 前 信号 ， 当 > 
A pA 区 

许 你 六 们 恶意 习 计 么 ， 以 息 什么 时 民风 意 眉 ， 机 
i 

了 3 
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105 

如 

中 

i 和 
看 出 逐 月 过 化 揭 规 健 了 吧 3 . 
Ezy 

1 

127 

i137 

150 

这 是 最 这 一 个 周 于 

的 ， 一 加 都 站 十 了 ， 这 





练习 解答 


你 从 这 些 新 数据 中 看 出 什么 了 ? 





这 此 时 间 内 的 销量 灾 化 规 侍 是 可 能 告诉 你 为 什么 上 个 月 和 记 隐 和 
\ 好 ? 


岛 和 鱼 的 销量 似乎 背道而驰 ， 一 个 上 升 ， 另 一 个 见 ， 
上 个 月 的 情况 是 想 人 
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WET SD WE sw 
| 2 Month Year Fish Ducks Total 
2 2000 71 25 95 
-31s 2006 76 29 105 
上 4M 2006 73 29 102 
Isa 2206 61 29 119 
6 M 2006 53 32 115 
展 革 2005 好 31 105 
恬 到 2006 35 39 124 
日 & 2006 32 91 123 
i105 2006 25 37 112 
和 ao 2006 21 95 117 
2N 2006 113 51 164 
每 年 一 衣 销 重 都 巨 幅 下 降 ， so 2006 125 a9 174 
|) 97 二 90 34 124 
Ps 2007 31 30 121 
证 M 2007 90 30 129 
这 里 是 一 个 莫 折 点 ， 术 应 Ea 2007 35 397 132 
了 M 2907 34 96 130 
恺 在 迷 之 前 卖 得 不 错 ， 此 3 2007 34 97 131 
后 改 吕 橡皮 和 鱼 贪 先 ， lz 2207 43 105 145 
21 A 2007 38 105 143 
2 qr 118 43 162 
I20 2007 134 45 179 
24N 2007 139 58 197 
E21D 2007 148 60 208 
6 2008 103 37 140 
用 2 ZO08 37 105 1 入 
,于 2 对 2005 103 137 
这 里 是 男 一 个 转折 点 】 I2a 2% 45 114 153 
了 M 2208 a0 117 157 
县 。 2208 37 113 150 
一 WN) 2008 129 #6 177 
ES 2005 127 $5 172 
45 2205 137 ES 132 
I 0 2008 160 56 215 
La 2008 125 175 300 
E37i5 2008 137 201 338 
A sim 
ey 


提防 负 相 关 变 量 


我 们 不 知道 为 什么 ”橡皮 蝎 和 橡皮 鱼 的 销量 看 上 去 南 辕 北 辐 ， 但 可 
以 肯定 它们 是 负 相 关 关 系 。 一 种 产品 越 多 ， 就 意味 着 另 一 种 产品 越 


少 。 





ee 两 种 天 
eb 庆 索 势 . 得 


1- rp 另 i 
有 时 候 ， 概 皮 鱼 的 销 有 时 恢 ， 橡皮 卫 的 销 Ns 
最 下降 ， 检 皮 物 的 销 好 下 降 ， 棕 皮 鱼 的 销 但 数据 从 未 显示 这 
晤 上 升 . 量 上 升 ， 两 种 销量 同时 上 升 ， 二 


4? Te 1 


橡皮 鱼 。 检 皮 曙 检 皮 鱼 _ 近 皮 输 棕 皮 鱼 、 棕 皮 胸 







梯度 网 和 共 
皮 鱼 总 销 章 














JFMAHTIASOND IFHNANHIIASONDIFHAMIIASONCD 


不 要 假定 两 种 变量 是 不 相关 ”的 。 创 建 模型 时 ， 务 必要 规定 假设 中 
的 各 种 变量 的 相互 关系 。 


动 动脑 


你 打算 在 你 的 优化 模型 中 加 入 哪 种 约束 条 件 来 体现 橡皮 鸭 销 量 和 橡 
皮 鱼 销量 之 间 的 负 相 关头 系 ? 


强化 练习 


你 需要 增加 一 个 新 约束 条 件 ， 用 于 估计 “ 某 个 月 的 橡皮 鸭 和 橡皮 鱼 


的 需求 量 。 


贺 ”看 看 这 些 历 史 销 售 数据 ， 估 计 一 下 下 个 月 的 橡皮 鸭 和 橡皮 鱼 
0 
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通 党 在 ;z 明 过 后 涂 鲍 贡 

只 梢 量 会 窗 生 哪 区 变化 ? 
你 丰 鸭 下 小 导 啡 二 
种 玩 愉 会 俏 况 ? 
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| rr Friends Unlimited 


2 Manufacturing plan for December 












入 
4 4 
- 
6 
7 
区 、: 测 
二 Needed per unit Used 
10 Duck 100 40000 
11 Fish 125 10000 
12 


这 也 元 豆 一 个 四 没 
次 ， 所 心 你 可 以 证 
中 了 汪 训 衬 绎 持 后 样 . 


50000 








你 洪 亿 于 攻 这 个 络 
入 枢 里 前 为 来 参 件 ， 


再 用 一 次 Solver， 这 次 加 上 新 的 约束 条 件 。 无 论 是 橡皮 鸭 还 是 
橡皮 鱼 ， 你 认为 有 希望 达到 的 最 大 销量 是 多 少 ? 


强化 练习 解答 





你 又 一 次 运行 了 自己 的 最 优化 模式 ， 这 次 将 橡皮 胸 和 橡皮 鱼 的 估计 
销量 整合 进来 了 。 你 发 现 什么 了 ? 


看 看 这 些 历史 销售 数据 ， 估 计 一 下 下 个 月 的 橡皮 有 鸭 和 橡皮 鱼 
的 最 高 销量 ， 假 设 下 个 月 的 销量 与 前 几 个 月 的 销量 相似 。 


护 们 应 读 对 1 月 仁 议 应 和 天 澡 了 竹 
有 所 准备 ， 看 杂 析 应 管 欣 强 


王 协 起 会 括 光 . 
pe 我 们 可 能 太太 全 出 150 台 必 上 
% pf 
浆 史 地 风 宵 得 


涪 友 主 及 销 攻 并 
人 
胜 们 可 处 基 法 车 出 50 象 
以 上 媳 上 应 皇 。 


:FMNAMHIIASDNCIFMHAMHIISSCRDIFYAMIASSND 
区 





再 用 一 次 Solver， 这 次 加 上 新 的 约束 条 件 。 例 如 ， 如 果 你 认为 
下 个 月 售 出 的 橡皮 鱼 的 数量 不 会 超过 50 条 ， 就 一 定 要 加 上 一 个 约束 
条 件 ， 告 诉 Solver， 上 所 建议 的 橡皮 鱼 的 产量 不 得 超过 50 条 。 


swe 


a 而 Nox Mc Sp gy ge 
Wy hanyrg Ce 和 - | 实际 子 柯 能 六 < 布 
$5 $0 到 [| 点 几 偏 肛 … 毕 高 
Sdnect to the Corrat ont: 深 些 者 总 愤 位 望 ， 
Tp me 1 
姑 A= 350 





下 面 是 Solver 给 出 的 结果 : 


FRR 
1 Bathing Friends Unlimitegd 


这 是 于 个 由 网 产品 钥 合 ， 


二 Total pellets used 
14 Pellet supply 
前 未 你 次 椒 脸 产 读本 用 未完 ， 





这 是 下 个 月 的 估计 钉 税 。 Pee 
荐 离 ， 便 严令 录 |; 


新 方案 立竿见影 


新 方案 表现 出 色 。 每 一 只 橡皮 鸭 和 橡皮 鱼 都 几乎 是 一 离开 生产 线 就 
立即 卖 挥 了， 这样 一 来 ， 再 没有 积压 的 库存 ， 客 户 完 全 有 理由 相信 ， 利 
润 最 大 化 模型 让 他 们 心 想 事 成 。 





疏 伯 和， Head Firat 

二 是， 谢 许 |! 

不 受 狗 苍 析 师 

你 给 我 们 共 正 是 陈 们 想 变 的 ， 我 们 对 此 非常 感激 
你 个 色 优 化 或 们 钧 利润 ， 而 翌 让 我 们 从 运营 串 


这 和 苞 者 立 心 上 明光、 咒 数 汪 改 。 你 关 模 型 我 们 肯定 会 吉 用 下 
eee _ 去 s 、 谢 话 ! 


莹 访 


疹 贷 宝 


请 : 菇 受 这 从 小 小 甘 座 礼 ， 这 是 我 们 永 旦 汐 桥 皮 
人 1 总 Head First 特 别 蓄 . 



























王 担 好 ! 再 加 一身: 模型 之 所 以 生 数 ， 
是 轩 汉 你 发 计 了 欣 寺 鸭 和 橡皮 鱼 需 出 
量 之 阅 响 关系 ， 可 要 是 这 种 基于 发 生 
变化 怎么 协 ? 要 是 人 们 两 样 部 买 ， 或 
是 一 桩 都 不 买 证 处 么 办 了 


你 的 假设 立足 于 不 断 变化 的 实际 情况 
你 所 使 用 的 所 有 数据 都 是 观察 数据 ， 你 无 法 预知 未 来 。 


你 的 模型 现在 是 在 起 作用 ， 但 可 能 会 突 


然 失 灵 。 你 需要 做 好 准备 ， 


以 便 在 必要 的 时 候 重 新 构建 分 析 方法 ， 反 复 不 断 地 进行 构建 正 是 分 析 师 


的 工作 。 
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销 
二 200 
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做 好 修改 模型 的 准备 ! 


1 pn | 
% Wi 人 个、 
100 | 一 一 ~ 人 | 
50 | 一 | Sb 汪 3 


谁 知 说 昭 天 不 里 
企管 公 样 蛇 。 
要 Ei 
~ 、 
a 
类 
严 
/ 
a Es “Ws 
sy FF ” 
yy pF Ps 
/ 
i/ 
1 
1 
1 
FF 
| 
J 
A 
\ 
机。 


要 是 变 委 之 间 朋 关 勾 半 
则 乒 委 生变 从 体 就 过 


叶 夫 报 型 间 行 天 全 。 


4 ”数据 图 形 化 
图 形 让 你 更 精明 


好 ， 别 动 …… 社 我 拍 下 
所 有 特征 .。 





数据 表 远 非 你 所 需 。 


你 的 数据 庞杂 上 涩 ， 各 种 变量 让 你 目不暇接 ， 应 付 堆 积 如 山 的 电子 
表格 不 只 令 人 厌倦 不 壤 ， 而 且 确 实 浪 费时 间 。 相 反 ， 与 仅仅 使 用 电子 表 
格 不 同 ， 一 幅 用 纸 不 多 、 棚 棚 如 生 的 清晰 图 像 ， 却 能 让 你 摆脱 “一 叶 障 
目 ， 不 见 泰 山 ? 的 烦恼 。 


新 车 队 需 要 优化 网 站 


新 军队 是 一 家 在 线 服装 零售 商 ， 刚 刚 进行 过 一 次 测试 网 页 外 观 的 实 
验 : 在 一 个 月 的 时 间 里 ， 每 一 位 浏览 网 站 的 人 都 随机 浏览 到 下 列 三 种 主 
页 费 计 让 = 

















他 们 让 实验 设计 师 们 一 或 作 气 进行 了 一 系列 训 试 ， 和 希望 这 些 测试 帮 
助 他 们 找到 网 站 设计 的 归 箱 ， 他 们 想 挑 出 最 优秀 的 风格 页 ， 让 销量 最 大 
化 ， 让 人 们 成 为 网 站 的 回头 客 。 


结 来 面世， 信息 设计 师 出 局 


既然 已 经 通过 受 控 的 随机 实验 搞 到 了 大 堆 炫目 的 数据 ， 就 要 想 个 办 
法 将 这 些 数据 的 价值 统统 体现 出 来 。 


于 是 他 们 雇用 了 一 位 信息 设计 牛人 ， 让 他 汇总 这 些 资料 ， 以 便 从 
调研 信息 中 刺探 情报 。 电 料 事情 并 不 尽 如 人 意 。 


各 们 座 用 捕 信 息 设 升 号 给 了 ey 


想 区 无 胁 于 音 解 喜 据 ， 萤 以 我 们 炉 了 他 .你 
能 给 条 们 象 斥 一 遇 熟 据 几 形 。 帮 盖 闲 们 按 设 
一 个 正好 的 网站 妈 ? 








a" 
澡 们 想 知 讶 乾 一 种 如 嘱 一 研 风 抢 页 局 
媒 符 届 站 种 来 量 高 营业 额 、 最 多 况 得 
忆 最 高 回访 证 ， 
AR 


你 需要 重新 设计 分 析 图 表 ， 这 可 能 是 一 个 艰难 的 任务 ， 因 为 新 军队 
的 实验 设计 师 是 一 帮 要 求 苛 刻 的 精美， 他 们 拿 出 了 大 量 实在 的 数据 。 


在 开始 工作 前 ， 让 我 们 先 看 看 打 入 冷 宫 的 设计 ， 知 道 哪 种 图 形 不 管 
用 也 许 能 让 我 们 对 某 些 东西 先知 先 党 。 


让 我 们 看 看 这 些 打 入 次 让 的 设计 .……. 


前 一 位 信息 设计 师 提 区 的 三 份 信息 图 


信息 设计 师 将 这 三 份 设计 图 交 给 了 新 军队 。 看 看 这 些 设 计 ， 你 有 什 
么 印象 ? 能 看 出 为 什么 客户 难免 无 法 释怀 吗 ? 


新 军队 逐次 迎 的 笑 
链 问 点击 
字 贞 大 小 可 能 与 皮 
击 数 有 茶 种 关 来 - 
3 





你 可 丘 http AAA motdie net 
锡 蕴 生 战 六 祥 的 标 莹 记 . pe 


这 张 转 仅 单果 

在 玉 度 备 种 评 

页 疯 访 悦 车 ， 
\ 


W008 





这 要 关头 是 什么 志 思 ? 


“aes 





秋元 卫 问 ， 总 出 思 开 非常 烧 目 ,可 
院 睹 苏 中 六 是 何 真 秒 ? 


这 些 图 形 隐 含 哪 些 数 据 ? 


每 当 你 观察 一 张 新 图 片 ， 一 上 来 就 该 问 “图 片 中 隐 含 了 哪些 数 
据 ? ”你 所 关心 的 古 数据 的 质量 及 其 含义 ， 你 讨厌 炫目 的 设计 ， 它 们 会 
妨碍 你 作出 分 析 判 断 。 





这 后 面 隐藏 着 什么 ? 


a 






Famecy, wisualigalion 
( [ 


至 非 都 是 数据 ， 


动 动脑 


你 认为 这 些 图 片 隐 含 着 哪 类 数据 ? 


体现 数据 ! 


你 无 法 从 这 些 图 片上 看 出 隐 含 了 哪些 数据 。 要 是 你 是 客户 ， 面 对 连 
包含 了 哪些 数据 都 说 不 上 来 的 图 片 ， 怎 么 能 指望 作出 有 用 的 判断 呢 ? 


体现 数据 。 ”创建 优秀 数据 图 形 的 第 一 要 务 就 是 促使 客户 庆 慎 思考 
并 制定 正确 决策 ， 优 秀 的 数据 分 析 由 始 至 终 都 离 不 开 “ 用 数据 思考 ”。 





这 些 疼 形 可 以 与 各 种 


Re 
除 莫 被 社 这 豪 吕 寺 诉 你 ， 否则 
租 现 法 知 道 图 避 中 苞 合 的 和 信息， 


让 此 略 形 不 念 芍 新 军队 一 
网 等 种 问题 带 末 答案 。 
新 盏 队 的 数据 其 实 不 可 谓 不 丰富 ， 数 据 中 包含 了 各 种 各 样 有 价值 的 
资料 供 你 绘制 图 形 。 


注册 靖 一 些 新 下 
队 码 级 据 表 ， 


| 
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这 束 旺 国 形 名 隔 合 前 东欧. 


Ws 


有 ww 


EE 


CH TET YA 





这 是 前 一 位 设计 师 主动 提供 的 意见 


你 没有 要 求 提 供 这 些 信 息 ， 可 看 来 已 经 到 手 了 : 出 局 的 信息 设计 师 
想 对 这 个 项 目 说 上 两 句 。 也 许 他 在 不 知 不 觉 地 帮 你 
















上 并 件 人 : Head First 
尝 作 人 ， 小 由 眼 莅 漆 乱 数 所 该 汗 公司 
可 复 : ”网 站 设计 优化 项 各 





兰芝 的 Head First 










我 衰 心 逢 让 你 能 成 为 奇 军 堆 项 习 的 斑 运 儿 ， 其 实 我 并 
不 总 骤 想 沙 这 个 融 日 ， 因 汗 让 曾 大 有 杞 会 试 试 氛 还 真 公 


< 世 
zn 


这 人 么 说 他 还 插 “ 审 各" 















敢 告 - 知 ， 亿 们 数据 超 多 ， 实 际 上 刀 太 多 了 ， 等 你 - 个 
儿子 礼 进去 就 碎 卢 乏 约 意思 了 。 我 说 ， 丛 我 一 苏 蒂 三 交 
去 将 ， 我 就 能 为 祭 位 而 一 些 殷 图 。 可 这 些 家 恢 昆 ? 化 让 
才 出 突 的 数 提 多 得 让 化 四 自己 都 不 知道 谈 息 么 愉 ， 


看 着 对 行 页 防 厅 招 就 知 
小 同 所 言 非 虚 . 








他 们 会 圣 芝 你 月 奈 有 这些 数据 为 他 们 巨 图 我 只 所 了 儿 
ae rie dn dtl 
尔 ， 华 们 凌 的 活 比 登 天 还 玲 一 一 北 介 想 声 到 可 演 
一 切 也 示 侈 太 多 了 


看 来 ， 小 唐 认 为 ， i a 
多 倒是 个 问题 。 你 觉得 他 是 不 是 在 花言巧语 ?为 什么 ? 








动 动笔 解答 


小 唐 说 数据 太 多 会 给 绘制 优秀 图 形 带 来 极 大 困难 ， 有 道理 吗 ? 








数据 太 多 绝 不 会 成 为 你 的 问题 
庞杂 的 数据 很 容易 让 人 抓 狂 。 
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、、、 这 和 夏 硕 化 燃料 \ 
将 洁 信 用， \ 


不 过 要 学 会 处 理 貌似 庞杂 的 数据 同样 并 非 难 事 。 


要 是 你 手头 数据 庞杂 ， 而 且 对 于 如 何 处 理 这 些 数 据 没有 把 握 ， 这 时 
只 要 记 住 你 的 分 析 目 标 就 行 了 : 记 住 目标 ， 目 光 停 留 在 和 目标 有 关 的 数 
据 上 ， 无 视 其 他 。 













喘 ， 问 题 并 处 意 于 数据 太 和 匈 ， 问 题 是 
要 搞 清楚 峰 河 让 克 形 规 丽 出 名。 





哦 ， 真 的 吗 ? 你 认为 作为 数据 分 析 师 “”， 你 的 工作 就 是 给 客 刻 带 来 
美感 吗 ? 





让 数据 变 关 观 也 不 是 你 要 解决 的 问题 


只 要 数据 图 形 能 解决 客户 的 问题 ， 不 管 是 精美 扎 眼 还 是 平平 无 奇 ， 
都 会 对 客户 有 吸引 力 。 


正如 进行 任何 优秀 的 数据 分 析 一 样 ， 制 作 优秀 的 数据 图 形 也 需要 明 
确 起 步 点 。 





动 动脑 


如 何 通过 一 大 堆 充满 变数 的 数据 来 评估 你 的 目标 ? 究竟 从 哪里 开始 
呢 ? 


数据 图 形 化 的 根本 在 于 正确 比较 


为 了 形成 优秀 的 图 形 ， 首 先 要 明确 能 够 实现 客户 目标 的 基本 比较 对 
象 。 现 在 看 一 看 客户 最 重要 的 电子 表格 : 
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a 一 一 - 
/我们 祖 知 江 境 一 种 澡 
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尽管 新 军队 的 数据 不 止 这 三 张 表 格 ， 但 通过 对 这 三 张 表 进行 比较 ， 
却 能 够 直接 回答 他 们 想 知 道 的 答案 。 让 我 们 马上 尝试 比较 .….… 


观察 下 面 这 张 描述 主页 1 访问 结果 的 统计 图 ，X 轴 上 的 点 代表 访问 
用 户 。 


用 电子 表格 的 求 平均 值 公式 (AVG) 算出 主页 1 的 平均 营业 额 和 浏 
览 时 间 数 值 ， 在 图 上 用 水 平和 垂直 线条 表示 这 些 数值 。 


米 


半 _ 快 米 下 载 ) 


f 


www.headfirstlabs.com/books/htda/ 
hfda_ch04 home pagel.csv 





这 个 数 值 代 表 新 军队 希望 看 到 的 每 位 用 户 阅 宽 曲 网 站 时 间 


SS 主页 1 





这 个 南 迄 代表 新 军队 
网 就 花 同 用 户 网 六 平 
坞 消费 金 额 目标 ， 


你 所 看 到 的 结果 与 目标 营业 收入 和 浏览 时 间 相 比 怎样 ? 





证 
EE 


动 动笔 解答 


如 何 用 图 形 表示 主页 1 的 营业 收入 和 浏览 时 间 ? 


这 是 网 站 网 吾 境 浏览 时 间 。 


wal 
O 


浏览 时 站 








你 所 看 到 的 结果 与 目标 营业 收入 和 浏览 时 间 相 比 怎样 ? 











你 的 图 形 已 经 比 打 入 次 让 的 图 形 更 有 用 


现在 看 到 的 是 一 张 不 错 的 图 形 ， 这 肯定 对 你 的 客户 有 用 。 这 是 一 个 
优秀 的 数据 图 形 实例 ， 因 为 它 .….…… 







后 示 了 沼 记 
= 作 了 启 半 区 比较 


a 乓 示 了 沙 个 变 嘻 





| 


一 | 
一 这 北 罗 箭 则 是 一 者 乱 府 | 





这 是 磋 种 图形? 全 慰 
什么 用 场 ? 





使 用 黎 扣 图 探索 原 


散 点 图 是 探索 性 数据 分 析 “的 奇妙 工具 ， 统 计 学 家 用 这 个 术语 描述 
在 一 组 数据 中 寻找 一 些 假设 条 件 进行 测试 的 活动 。 


分 析 师 喜欢 用 散 扣 图 友 现 因果 关系 ”， 即 一 个 变量 影响 为 一 个 变量 
的 关系 。 通 常用 散 扣 图 的 X 轴 代表 上 自 变 量 ( 我 们 假想 为 原因 的 变量 )， 
用 Y 轴 代表 应 变量 我 们 假想 为 结果 的 变量 。 


过 是 .一 司 EE 点 由 
1 


Ee 


Se 甫 四 点 从 来 一 个 观 
~ 3 也 对 各， 切 放 中 霹 
2 洪 多 让 刀 栅 酒 党 。 





| 0 
总 垫 和 图 中 党 时 小 由 周 涡 视 源 寺 新， 启 NL 
同 实心 点 于 地 外 看 出 生生 情况 - 











你 不 必 论 证 ”上 自 变 量 是 影响 应 变量 的 原因 ， 因 为 我 们 终归 是 在 探索 
数据 ， 而 原因 正 是 我 们 的 探索 目标 。 















笋 被 了 ， 可 还 有 好 银 数 据 呢 ， 变 
量 东 止 古 个 ， 要 进行 鹃 比 革 也 和 远 
杀 止 这 些 。 我 们 能 了 未 能 多 到 一 些 
变量 ， 面 未 是 仅仅 两 个 ? 


最 优秀 的 图 形 都 是 多 元 图 形 


如 果 一 个 图 形 能 对 三 个 以 上 变量 进行 比较 ， 这 张 图 形 就 是 多 元 图 
形 ， 再 加 上 有 效 的 比较 是 数据 分 析 的 基础 ， 于 是 尽量 让 图 形 多 元 化 ”最 
有 可 能 促成 最 有 效 的 比较 ， 在 本 例 中 ， 你 拥有 丰富 的 变量 。 
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| 
有 有 机会 放行 各 种 出 稚 ! 一 


动 动脑 


你 如 何 令 自 己 创建 的 散 点 图 多 元 化 ? 


同时 展示 多 张 图 形 ， 体 现 更 多 变量 


有 一 个 办 法 能 让 图 形 多 元 化 ， 即 将 多 张 相似 的 散 点 图 相 令 排放， 下 
面 是 一 个 实例 。 


所 有 变量 都 绘制 在 这 些 图 形 中 ， 这 样 就 可 以 一 举 进行 大 量 比 较 。 由 
于 新 军队 真正 关心 的 是 营业 额 的 比较 情况 ， 所 以 ， 我 们 只 要 继续 观 窒 浏 
览 时 间 、 页 面 浏 览 次 数 以 及 回访 率 与 营业 额 的 关系 。 
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动 动笔 


你 刚才 已 经 创建 了 一 张 相当 复杂 的 图 形 ， 观 察 一 下 这 张 图 ， 想 一 
想 ， 对 于 新 军队 决定 进行 测试 的 各 种 风格 页 ， 这 张 图 次 明了 什么 ? 


你 认为 这 张 图 能 有 效 地 体现 数据 吗 ? 为 什么 ? 


注意 看 这 些 点 ， 你 可 以 看 出 主页 2 上 的 点 的 分 布 情况 与 其 他 两 种 主 
页 的 情况 大 不 一 样 。 你 认为 主页 2 有 什么 蹊跷 ? 





你 认为 这 三 种 风格 页 中 哪 一 种 最 能 有 效 地 让 新 军队 关心 的 变量 实现 
最 大 值 ? 为 什么 ? 


动 动笔 解答 





新 图 形 有 助 于 你 了 解 风格 页 的 比较 性 能 吗 ? 
你 认为 这 张 图 能 有 效 地 体现 数据 吗 ? 为 什么 ? 











这 些 点 ， 你 可 以 看 出 主页 2 上 的 点 的 分 布 情况 与 其 他 两 种 主 
页 的 情况 迎 然 不 同 。 


你 认为 主页 2 有 什么 蹊跷 ? 


HH 
2 
EN 











你 认为 这 三 种 风格 页 中 哪 一 种 最 能 有 效 地 让 新 军队 关心 的 变量 实现 
最 大 值 ? 为 什么 ? 














世上 没有 伊 问题 
问 : 我 该 用 哪 种 软件 工具 来 创建 这 类 图 形 ? 


答 : ”这 些 专 业 图 形 是 用 一 个 叫做 R 的 统计 数据 分 析 程 序 创建 的 ， 
本 书后 续 章 节 将 对 此 详 加 叙述 。 不 过 不 必 拘 泥 于 此 ， 统 计 行 业 还 有 许多 
可 供 使 用 的 图 表 制 作 工 具 ， 例 如 可 以 使 用 Adobe lllustrator 绘 图 程序 ， 甚 
至 可 以 目 己 画图 实现 软件 工具 实现 不 了 的 图 形 设想 。 


问 : Excel 和 OpenOffice 可 以 用 吗 ? 它们 也 有 绘图 工具 。 














答 : “可 以 ， 说 得 不 错 。 它 们 有 一 些 绘图 工具 ， 但 数量 有 限 ， 你 也 


许 能 够 设法 在 电子 表格 中 创建 一 张 这 样 的 图 表 ， 但 念 怕 得 打 一 场 硬 战 。 
问 :” 听 起 来 你 对 电子 表格 数据 制图 不 是 很 热心 ? 


答 : ”许多 严谨 的 数据 分 析 师 习惯 于 使 用 电子 表格 程序 进行 基本 计 
算 和 列表 ， 却 不 会 幻想 将 电子 表格 程序 作为 制图 工具 ， 这 样 做 会 让 人 伤 
透 脑筋 :使 用 电子 表格 程序 只 能 创建 届 指 可 数 的 几 种 图 表 ， 不 仪 如 此 ， 
程序 往往 还 会 勉强 你 设 定 决策 格式 ， 而 你 本 不 打算 如 此 。 并 不 是 你 不 能 
用 电子 表格 程序 绘制 优秀 的 数据 图 形 ， 而 是 这 样 做 会 车 抹 烦 上 里， 要 是 
学 会 使 用 R 程序 之 类 ， 就 不 会 有 那么 多 的 抹 烦 。 


问 : ”要 是 我 正在 寻找 制图 灵感 ， 电 子 表格 菜单 会 不 会 让 我 如 愿 以 


偿 ? 











答 : ”办 不 到 ， 办 不 到 ! 如 果 你 要 寻找 设计 灵感 ， 可 能 需要 看 几 本 
Edward Tufte 写 的 书 ， 他 是 数据 图 形 化 方面 的 最 高 权威 ， 他 的 著作 宛如 
一 座 奇 妙 的 数据 图 形 化 博物 馆 ， 数 据 图 形 化 有 时 被 他 称 为 认 知 艺术 。 


问 : 杂志、 报纸、 期 刊 文章 怎么 样 ? 


答 : ”培养 对 出 版 物 数据 图 形 质量 的 敏感 度 是 个 不 错 的 办 法 ， 有 些 
人 比 别人 更 擅长 设计 启发 性 图 形 ， 如 果 长 期 关注 出 版 物 ， 和 赁 感觉 束 能 友 
现 技 局 一 宕 的 作品 。 恨 好 的 起 步 方法 是 数 一 数 出 版 物 图 形 中 的 变量 ， 只 
要 一 幅 图 中 的 变量 达到 三 个 以 上 ， 出 版 物 就 更 有 可 能 提供 知性 的 比较 ， 
效果 比 只 有 一 个 变量 的 图 好 。 


问 : ”我 该 怎么 看 待 那 些 被 复杂 化 、 艺 术 化 但 无 助 于 分 析 的 数据 图 





答 : ”说 到 利用 计算 机 绘制 新 颖 的 图 形 ， 这 个 时 代 并 不 乏 激 情 与 灵 
气 ， 有 些 图 形 能 够 成 为 深度 数据 分 析 的 推动 力 ， 有 些 只 是 让 人 过 过 了 眼 
省 。 数 据 艺 术 ”这 一 说 本 映 无 可 厚 非 ， 只是， 除非 有 助 于 更 好 地 理解 隐 








问 : 这 么 说 有 些 东 西 能 让 人 过 眼 疗 但 对 分 析 并 无 启发 ， 反 过 来 


A 


Er 


这 就 看 你 目 己 了 。 不 过 ， 要 是 你 在 分 析 中 遇 到 了 举 棋 不 定 的 
事情 ， 而 图 形 却 对 此 有 所 启发 ， 那 么 很 难 想 象 这 幅 图 形 会 让 你 看 着 不 顺 
眼 ! 


让 我 们 看 看 客户 的 想法 


图 形 很 棒 ， 但 网 站 和 掌 


门人 仍 不 满意 


你 的 客户 ， 也 就 是 新 军队 网 站 和 车 上 门人， 刚刚 给 你 发 了 一 封 邮 件 ， 对 
你 的 工作 评点 了 一 番 。 让 我 们 看 看 他 说 了 些 什 么 .……. 













收 件 人 ，Head First 









同 
. 发 怕人 : 新 军队 网 站 党 门人 
回复 :我 对 数据 的 解 至 本 未 你 
WE 对 数 抢 的 未 规 
一 | 你 的 民 记 很 先天 ， 我 们 组 京 兴 庆 下 那 位 交 兄 站 ifs 

是 一 1 而 与 你 合作。 条 府 谈 淡 : 为 守 必 主 抽 3 世家 现 

他 切 扩 涪 | 六 二 于 吴 外 下 和 主页 

-一 一 切 部 毛 上 夫 合 情侣 理 ， 可 臣 沪 然 漠 短 当 为 什 。| 一 一 





他 想 知 道 的 是 因果 关系 。 








么 空 与 这 芋 结 忆 


我 这 为 主 





已 





,我 个 人 认为 有 两 点 ， 人 一 ， 
示 3 的 六 区 交友 更 快 ， 这 站 辐 记 铬 六 
基于 党 更 页 ;第 二 ， 


让 大 恶 党 茶 栏 ， 陪 尖 的 外 旬 更 妈 。 依 项 短 蛛 ? 


我 这 为 它 和 区 冷 的 色 击 确实 


对 于 他 来 说 ， 搞 清楚 哪 种 设计 风格 有 成 效 只 是 暂 告 一 个 段落 ， 为 了 


让 网 站 尽 可 能 红火 ， 还 需要 你 点 


同 的 反应 ? 


另外 ， 由 于 他 是 客户 ， 我 们 肯定 需 





拨 一 下 ， 人 们 为 什么 对 不 同 的 网 页 有 不 


要 论述 他 所 提出 的 理论 。 


优 夯 的 图 形 设 计 有 助 于 思考 的 原因 
你 和 客户 青睐 的 模型 通常 都 会 与 数据 吻合 。 







Pn 


这 企 炬 型 代 束 停 呈 时 讽 Da 


痕 设 或 对 数据 网 甫 玫 . 


ss 


当 扰 ， 良 齐 唤 合 …… 这 就 显 
它 看 赵 闲 旺 合 晴 摆 前 原因 。 








但 免不了 会 有 其 他 可 能 性 ， 盛 其 是 在 大 家 愿意 插 上 想像 的 翅膀 寻求 
解释 的 时 候 。 其 他 模型 情况 如 何 呢 ? 


这 个 模型 志 虽 全 |! 





| 
素面 上 入 外 模型 真有 和 趟 同盟 有 形状， 藉 办 罕 数 据 不 很 ， 那 
而 它 完 全 紫 娩 容纳 板 各 数据 。 必 模 型 就 放假 . 


当 你 描述 你 的 数据 图 形 时 ， 需 要 论述 可 相互 换 用 的 两 种 因果 模型 


或 图 解 。 能 完成 这 个 任务 说 明 你 非常 公正 ;让 客户 知道 你 不 仅 会 展示 
最 喜欢 的 一 面 ， 还 会 彻头彻尾 地 考虑 目 己 提出 的 原理 中 可 能 存在 的 


实验 设计 师 出 声 了 
实验 设计 师 知道 了 网 站 掌 门 人 的 理论 ， 他 们 发 来 了 自己 的 想法 ， 也 


许 他 们 的 意见 让 你 能 够 评估 一 下 网 站 掌 门 人 对 “为 什么 有 的 主页 表现 比 
别 的 主页 好 ”的 假设 解释 。 


| 收 忻 人 : Head First 
| 发 件 人 : 新 军队 实验 设计 师 


回复 :老大 的 想法 这 是 襟 验 该 计 师 们 寺 
第 一 个 假设 网 看 经 ， 


毕 计 上 沿 页 区 如 落 这 度 有 关系 IL? 可 能 会 - 我 位 
还 没 习 光宇 数据 进行 碎 访 ， 伍 基 我 们 做 的 列 试 于 
表 了 时， 主页 2? 忠 浸 虎 晤 快 拟 ， 共 次 主 灰 3， 早 

主页 1。 因 此， 他 完全 可 贡 奸 对 为 - 


至 十 色 洞 ， 或 们 颇 自 林 汗 ,市 页 3 的 色 调 吓 孙 
疹 的 ， 其 次 于 页 2， 好 后 主 屎 1， 汉 庆 云 归 人们 


依 志 记 干 基 万 别 ， 作 没 河 件 河 一 种 洁 尼 计 我 中 


及 正 入 用 : 








这 是 他 们 对 第 二 个 亿 计 的 收 力 。 俩 们 最 好 着 着 堵 据 ， 着 是 确 突 还 


是 得 定 这 些微 该. 


动 动笔 


让 我 们 看 看 数据 ， 看 老大 的 假设 是 否 成 并 。 


这 些 数 据 与 茶 个 假设 条 件 吻 合 吗 ? 


假设 1: 网 页 速度 是 主页 3 表现 最 佳 的 原因 。 
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假设 2: 轻松 的 冷色 调 是 主页 3 表现 最 佳 的 原因 。 
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合生 ) 入 从- 作 人 千 寺 5 让 | 故 生 多 < 计 7 咎 妇 : 半 [要 B 7 和 1 全 站 和 让 沾 定 ) 轩 放 伟人 全 "时 全 二 |[ 直 2 人 二 人 1 全 四 / 建 伟 恩人 轩 疝 轩 名 :地 让 时 J 全 寻 0 全 :人 壬 息 0 等 


疝 站 澡 门 人 的 假设 与 





这 些 数据 哮 合 她 ? 
主页 1 
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责 而 浏 此 并 区 
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你 发 现 网 站 掌 门 人 的 假设 与 数据 的 吻合 程度 怎样 ? 
假设 1， 网 页 速度 是 主页 3 表现 最 佳 的 原因 。 
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实验 设计 师 们 有 目 己 的 假设 


他 们 已 经 有 机 会 看 过 你 的 散 点 图 ， 给 你 发 来 了 他 们 对 事情 的 看 法 。 
这 些 人 都 是 数据 精英 ， 他 们 的 假设 必定 恰当 。 





这 是 京 难 证 和 峡 前 
下 一 步行 动 计划 ， 
1 


收 性 小: Haad First 
发 性 作 : 新 军队 实验 证 计 师 
回复 ; ” 我们 不 知道 为 什 和 外 主页 3 表现 更 抢眼 


听 说 主页 3 是 总 宁 的 主页 ; 我 们 对 鼎 芯 为 府 陵 ; 但 我 们 的 党 本 记 泛 
原因 ， 淮 知道 上 和 们 时 怎 点 开 芍 下 这 事情 引 译 栏 诺 与 陪 ， 丘 杰 验 
看 基业 若 赤 村 于 鼎 长进， 我 们 韦 吉 要 彻 诗 了 角 入 和 们 的 必 尝 ;二 并 
回 沈 ， 能 过 是 李 为 道 反 革 王 还 旺 县 与 高 轧 的 。 


几 种 风格 页 弹 实 在 种 赴 方 机 部 河 煞 不 扩 ， 这 个 分 裤 生 种 特 全 起 
扑 表 现 苦 异 十 忻 驾 手 钊 事 ， 世 后 我 们 会 内 主 天 3 对 一 系列 杂 节 进 ? 
注油 ， 这 应 访 香 泪 去 作 沉 清 耕 起 锌 外 形 - 子 体 千 和 内 束 对 柯 户 生 
为 法 蕊 的 开 响 ， 


未 过 ， 我 们 芷 香 市 坷 个 本 喜 ， 其 一， 主页 3 下 实 一 日 了 热 ， 我 们 采 
其 的 布 届 和 字体 祖 养 台 | 其 二 ， 现 而 层次 全 ， I 
到 姓 丽 满 旦 的 商 灾 ， 而 主 血 1 则 塞 家 点 汕 7 资 世上 字 能 说 型 | 吉 

永 再 。 流 两 个 因素 卓 可 荡 影 上 攻守 忆 六 ， 征 瑚 去 进 一 ee 
才 崇 确证 天 应: 








你 想 向 客户 提供 哪些 网 站 战略 建议 ? 


动 动笔 解答 

















客户 欣 质 你 的 工作 


你 创建 了 一 个 优秀 的 图 形 ， 新 军队 可 以 在 此 图 形 中 迅速 同步 评估 所 
有 的 测试 变量 。 


你 根据 不 同 的 假设 条 件 对 图 形 进行 了 评估 ， 为 客户 提出 了 出 色 的 后 
期 测试 建议 。 







态 常 酷 | 我 同意 你 对 假设 条 件 的 评估 ,也 
同意 你 明 建议， 我 正在 整个 财 站 上 丫 周 吝 
页 3。 位 夯 疡 功 帘 成 了 . 





订单 从 四 面 八方 滚滚 而 来 ! 


由 于 网 站 面目 一 新 ， 访 问 量 今 非 蔡 比 ， 一 派 繁 采 。 你 的 实验 结果 图 
让 客户 了 解 到 需要 了 解 的 东西 ， 网 站 因而 粉饰 一 新 。 





新 年 队 挫 你 还 坟 这 雌 和 并 腑 赤山 在 ， 





一 一 争 人 这 出 舟 节 “着 合 ”从 


更 妙 的 是 ， 新 军队 着 手 展 开 持久 的 实验 程序 对 新 设计 进行 提升 ， 他 
们 用 你 的 图 形 考 罕 实验 结果 。 好 样 的 ! 


新 军队 的 疯 站 优化 奏效 了 ， 





5 假设 检验 


假设 并 非 如 此 





/ 我 钓 到 了 一 条 4500 千 克 重 觅 带鱼 ， 
载 们 示 往 不 放 了 它 ， 要 未 船 就 名 
了 …… 什 么 ? 好 吧 ， 谍 倒 要 看 看 你 
怎么 证 明 我 错 了 | 


世事 纷 经 ， 真 假 难 辨 。 


人 们 需要 用 庞杂 多 变 的 数据 预测 未 来 ， 然 而 免不了 副 不 断 ， 理 还 
乱 。 正 因 如 此 ， 分 析 师 不 会 简单 听信 浮 于 表面 的 解释 ， 也 不 会 想当然 地 
认可 这 些 解释 的 真实 性 : 通过 数据 分 析 的 仔细 推理 ， 分 析 师 能 够 异常 细 
致 地 评 佑 大量 备 选 答案 ， 然 后 将 手头 的 一 切 信息 整合 到 各 种 模型 中 。 接 
下 来 要 学 的 证 伪 法 即 是 一 种 切实 有 效 的 非 直 觉 方 法 。 











给 我 来 其 <“ 友 肤 ”..……… 


你 来 到 “ 电 肤 ” 公 司 ， 这 是 一 家 手机 “皮肤 ”制造 商 ;， 你 的 任务 是 弄 清 
楚 手 机 巨头 PodPhone 下 个 月 是 否 要 出 一 亚 新 手机 ， 诸 多 商机 巧 而 未 决 。 














我 的 生活 克 满 活力 ， 我 葡 Paaphors 
宽 全 了 也 起 的 应 耿 ， 一 嫌 都 病 电 《 





本 


PodPhone 公 司 即将 发 布 一 亚 手 机 ， 时 间 竺 定 ， 电 肤 必须 在 手机 发 布 
之 前 的 一 个 月 开始 生产 手机 皮肤 ， 才 能 赶 上 手机 销售 第 一 疲 。 


要 是 电 肤 不 备 受 手机 皮肤 迎接 产品 及 布 ， 苋 争 对 手 将 抢先 下 手 ” 占 
领 市 场 ， 要 是 电 肤 生 产 了 手机 皮肤 而 PodPhone 却 不 发 布 产品 ， 投 在 手机 
皮肤 上 的 钱 就 会 打 水 漂 ， 天 知道 这 些 手机 皮肤 哪 年 哪 月 才能 开 卖 啊 ! 


我 们 何 时 开始 生产 新 手机 皮肤 ? 
首当其冲 的 问题 是 何 时 开始 生产 手机 皮肤 新 系列 。 


电 肤 是 否 生 产 手机 皮肤 


和 
< 








这 们 过 是 茶 蚁 大 卢 ， 
电 淖 首 淋 要 检定 ， 



































车 引 性 Phamz 贞 高 
新 产品 时 ， 我 人 已 
巷 得 产 出 手 才 让 肘 。 
\ 


2. 


由 了 果 癌 咒 汪 这 壤 中 有限 没 消 形 
蝗 划 六 ， 那 点 而 于 二 二 ， 


PodPhone 总 是 出 人 意料 地 发 布 产品 ， 因 此 电 肤 必须 搞 清 楚 发 布 时 
间 。 如 果 电 肤 能 在 PodPhone 发 布 之 前 的 一 个 月 开始 生产 ， 那 么 就 万 事 大 
吉 了 。 你 能 帮助 电 肤 吗 ? 


动 动笔 








哪 一 类 数据 或 信息 能 帮助 你 着 手 分 析 这 个 问题 ? 


动 动笔 解 答 











PodPhone 不 希望 别人 看 透 他 们 的 下 一 步行 去 


PodPhone 非 常 在 意 产 品 是 耕 一 鸣 惊 人 ， 他 们 完全 不 希望 别人 得 知 他 
们 的 意图 。 所 以 ， 绝 不 能 只 看 公开 数据 就 等 着 “他 们 何 时 发 布 
PodPhone” 的 答案 从 天 而 降 。 











PrdPheone 知 道人 党 爹 看 到 这 一 切 信 息 . 图 比 
赶 会社 手机 败 齐 附 间 出 理 站 这 员 站 冰 中 ， 


配件 制造 商 规格 


帘 争 对 手 产品 线 


PodPhone 新 闻 报 道 





你 需要 弄 清楚 如 何 将 手头 的 数据 与 目 己 假 设 ” 的 PodPhone 新 手机 的 
发 布 时 间 进 行 比较 。 不 过 ， 首 先 让 我 们 看 看 手 涉 关于 PodPhone 的 主要 


言 息 Neeoeeoeee 


我 们 得 知 的 全 部 信息 








这 里 有 一 些 关 于 产品 发 布 的 零星 信 BE 居 ， 电 肤 把 这 些 信息 拼 谈 在 一 
起 。 有 些 是 公开 信息 ， 有 些 是 机 密 信息 ， 有 些 只 是 传言 而 已 。 








wie PodPhcne 妆 许 抽 条 
PecPhone 专 如 产品 利 竞 尔 对 手 约 手 # 相 yd Phone 习 执行 


yi" 门 玖 不 
上 的 撤资 超过 所 性 图。 | 雍 ， 人 fi 的 于 n 必 能 用。 | 二 本 天 二 二村 于 
其 他 公司。 将 大 蛋 改 内， pe Ee 


一 家 况 信 对手 疼 刚 发 坚 深 可 上 蚂 ， 洪 费 可 支 招 法 ，PedPneone 首 
布 了 一 葡 性 能 优 工 的 已 绒 和 多 ， 止 中 夹 二 机 震 视 行 窒 衣 下 一 第 以 
新 于 机 .。 的 弛 时 亿 。 网 平 会 后 市 新 产 近 。 













说 心理 祷 ， 访 人 并 却 认 芒 地 从 安 和 发布 新 产品 ， 因 
区 他们 议 六 喇 绕 张 常 莉 扑 ， 他 们 会 闭 占 系 胜 秆 未， 
殷 这 条 产品 栈 鹏 感动 家 择 到 淋 访 尽 致 ， 垢 在 担 ， 
眠 现在 和 开始， 我 们 应 访 在 几 个 上 月 向 着 手 …… 


动 动脑 


根据 上 面 这 些 要 考虑 的 证 据 ， 你 认为 她 的 假设 有 道理 吗 ? 


电 肤 的 分 析 与 数据 相符 吗 ? 


首席 执行 官 站 在 PodPhone 的 角度 简单 扼要 地 介绍 了 一 步 步 思 路 ， 我 
们 用 图 解 方 式 记 述 她 的 说 法 : 


这 旺 电 对 多 高 执行 官 将 测 


让 Potphors 腑 起 法 。 





设 个 让 界 担 茵 与 你 鹏 证 拓 捐 荷 。 沁 


pr 





这 个 模型 ， 或 者 说 这 个 假设 ， 与 证 据 相 符 ”， 没 有 证 据 证 明 这 个 模 
型 是 错误 的 ; 当然， 也 没有 证 据 强 有 力 地 证 明 这 个 模型 是 正确 的 。 


这 里 的 信息 与 电 肤 网 震 设 该 用 好 盾 ， 


ad PozFhesne 与 病 壹 

PardFhana $1 证 桨 二 厅 寺 荐 字 吉 
RS 全 闻 启 “茂生 党 不 

1th 上 的 榨 答 本 志 所 相 目 ， 信人 计 六 地 纪 
< 芒 三 出 大 接口 新 


在下 认 司 = 体 将 坟 FS 上 让 。 





一 永 地 蔬 守 地 IBI 妆 
让 了 一 融 宪 使 全 ,起 
户 训 | 让 .3 








推理 看 来 很 严 说.……. 


电 肤 得 到 了 机 密 《 战 略 备 态 录 》 





电 肤 滴 水 不 漏 地 ”注意 着 PodPhone 的 动静 ， 于 是 有 时 就 有 这 样 的 资 


料 送 上 门 来 。 








这 份 《 战 略 备 忘 录 》 概 括 了 PodPhone 计 算 产 品 发 布 日 期 时 所 考虑 的 


大 量 因素 ， 比 电 肤 首席 执行 官 想象 的 要 细致 得 多 。 








PodPhone 手 机 发 布 战略 备忘录 





我 们 前 望 确 定 产 品 发 布 时 间 ， 以 句 实 现 坡 大 销 居 : 打 叹 
误 基 对 皖 、 为 此 淄 葛 苦 邢 符 种 古来 。 


共和 完 关注 的 站 经 济 ， 整 黎 经 入 上 行 贫 旦 售 请 费 者 庶 加 支 
用 ， 经济 下 行 串 会 抑制 消费 兰 支 卉 ， 消 避 者 支出 起 手册 
辅 录 的 呢 “来源 ， 但 蕊 ， 开 科 与 竞争 对 二 争夺 刘 上 同一 
上 岂 拒 内 ， 我 们 多 过 一 研 ， 使 们 王 少 志 一 涯 :我 们 光志 “ 
举 ， 地 放 就 多 京 志 训 ， 


i 


- 船 我 们 水 区 意 在 对 于 有 | 上 机 上 证 :的 由 入 发 布 新 产 品 : 
夺 对 于 奖项 尖 去 新 立 嘱 发 本 基 亡 此 会 让 我 们 夺 实 多 禾 销 项- 


ee 







这 符 备 忘 录 鱼 肯 入 水 PodDheme 





鹏 安 市 时 间 吗 ? 搞 的 基点 商 和 和 内 部 开发 出 隐 也 限 币 了 略 手 机 生 产能 刀 。 
二 二 上 A 和 
动 动笔 





仔细 想 一 想 ，PodPhone 《备忘录 》 中 提 到 的 各 种 变 瑟 相互 间 有 何 六 








系 。 下 面 这 些 关 系 对 是 同 升 同 降 还 是 背道而驰 ? 按照 目 己 的 答案 ， 
在 圆圈 中 添上 “+” 或 “-”。 


因果 两 个 康 是 同 包 同人， 晤 来 蚂 个 实 量 准 进 而 及 ， 具 少时 里 现 个 “一 ”， 
站 出 史 里 说 一 个 “十 ， 


>» 
ES EE | 
Lss | RN | EE 4 | 
rs) 0 | CO- [cen) 








按照 PodPhone 的 想法 ， 下 面 这 些 变量 对 之 间 有 何 定量 关系 ? 


as 必 采 竞 部 对 部 豚 仙 有 新 
荐 洲 上 藻 ， 则 和 苗 


2 CE 1 WY SS 产 品 沉 吊 ， WP Tkone 
咎 党 支出 增加 。 / 姓 况 发 尖 乾 产品 ， 


7 
+ | 济 机 才 竞争 对 手 PodPhone 
“OO 
PodPhons PodPhone 站 
0] 了 -CE 
Ed © 本: | 3 医治 
UTCAma 训 去 -一 部 寺 机 ， 况 争 刘 加 


圭 沙 一 帮 ， Pestpherr 少 未 一- 
六 玫 机 ， 党 归于 季 祝 委 垃 一 部 ， 


变量 之 间 可 以 正 相 关 ， 也 可 以 负 相 关 


问 一 问 “ 这 些 变 量 是 正 相 关 还 是 负 相 
关 ”， 有 一 种 变量 增 大 意味 着 为 一 种 变量 也 增 大 ， 则 为 正 相 关 ; 知 一 种 
变量 增 大 意味 着 另 一 种 变量 减 小 ， 则 为 负 相 关 。 


右边 是 PodPhone 发 现 的 更 多 其 他 关系 ， 你 如 何 利 用 这 些 关 系 建立 一 
个 更 大 的 模型 ， 指 出 PodPhone 确 信 的 观点 ， 使 这 个 模型 有 可 能 预见 到 
PodPhone 发 布 新 手机 的 时 机 ? 





这 是 键 从 PodPhone 《 戈 骆 备忘录 》 


六 .地 其 他 关系 . 


一 (+) 一 > | ”内 部 开发 活动 
4 


竞争 对 手 区 
a | | 已 区 


都 是 正 相 基 关 系 ， 





让 我 们 将 这 些 正 相关 和 负 相 关 变 量 关 系 编织 成 一 个 模型 。 
请 用 对 开 页 上 指定 的 关系 绘制 一 个 网 络 。 


这 次 种 关系 已 


a 支出 


PodPhone 
销量 


将 PodPhone 的 观点 放 到 网 络 中 后 ， 你 的 PodPhone 模 型 看 起 来 怎么 
羊 ? 


流 里 正 恬 发 生 一 系列 事情 . 


竞争 对 手 
| 产品 发 布 


> 


产品 发 布 


PodPhone 
销 呈 浪人 多 弓 PodPhone 


着 洒 PoiPhome 正 及 关注 太 
量 次 音 辣 的 构 互 作用 。 


供应 商 





车 其 中 党 个 实生 的 确 发 生 志 化 ， 则 
第 可 仍 式 对 其 他 变量 产生 昌 六 ， 


现实 世界 中 的 各 种 原因 呈 网 络 关 系 ， 而 非 线性 关 


pa 


线性 等 于 直觉 ”， 关 于 “为 什么 PodPhone 有 可 能 推迟 产品 发 布 * 的 线 
性 解释 可 谓 简单 明了 。 


PodPhone 上 网 上 城 圣 备 访 录 》》 泰 明 
他 们 岗 扫 法要 比 这 复 妇 得 条 。 








可 是 ， 仔 细 观 察 PodPhone 的 战略 报告 融会 发 现 ， 不 管 细节 如 何 ， 他 
们 的 真实 想法 要 比 简 单 的 线性 分 布 图 透露 的 东西 复杂 得 多 ，PodPhone 意 
识 到 ， 他 们 要 在 一 个 活跃 、 多 变 、 互 有 联系 的 系统 中 制定 决策 。 


作为 一 位 分 析 师 ， 你 的 视野 要 比 这 个 简 蛙 的 模型 开阔 才 行 ， 要 淘 望 
看 出 因果 关系 网 络 。 在 现实 世界 里 ， 各 种 原因 在 相关 变量 构成 的 网 络 
中 传导 .…… 你 的 模型 怎么 可 能 独善其身 呢 ? 














那 我 们 该 器 何 使 用 这 个 阅 了 给 来 并 清 革 
PodPhone 发 布 新 产品 的 有 时机? 怎么 处 站 
数据 呢 ? 






假设 几 个 PodPhone 备 选 方案 
PodPhone 人 述 早 会 发 布 手 机 新 产品 ， 问 题 是 何 时 ? 
回答 这 个 问题 有 各 种 依据 ， 这 些 依 据 都 能 成 为 分 析 假 设 ” ， 下面 是 


儿 个 依据 选项 ， 指 出 了 产品 的 可 能 发 布 时 间 ， 电 肤 交 给 你 的 任务 残 是 选 
出 其 中 的 正确 假设 。 














用 手头 的 资料 进行 假设 检验 


通过 理解 PodPhone 的 心智 模型 和 目 己 手头 的 证 据 ， 你 搜集 到 大 量 信 
上 县， 摸 清 了 电 肤 的 心头 大 事 : PodPhone 何 时 发 布 新 产品 。 


你 需要 用 茶 种 方法 整理 这 些 思 路 ， 形 成 可 靠 的 预测 。 


假设 检验 的 核心 是 证 伪 


请 勿 试图 选 出 最 合理 的 假设 ， 只 需 吻 除 无 法 证 实 的 假设 一 一 这 右 
是 假设 检验 的 基础 : 证 伪 。 


选 出 看 上 去 最 可 信 的 第 一 个 假设 的 做 法 称 为 满意 法 ， 如 下 所 示 : 











别 用 满意 法 ! 


误 虹 1: 保 馈 2: 总 坡 4 器 设 4 ri 
胡 天 必 在 新 下 个 月 煤 布 外 半年 内 突 布 一 年 内 发布 条 扩 
产品 严 品 各 产品 产品 了 
小 
| 


这 人 加 说 用 人 滴 丁 ， 下 
N pa 








满意 法 其 实 非常 简单 : 选 出 第 一 个 选项 ， 其 余 不 作 处 理 。 相 反 ， 证 
伪 法 则 如 下 所 示 : 





证 的 法 更 凯 鱼 。 











及 是 次 叱 会 存 井 假 设 ，- 一 


看 来 ， 满 意 法 和 证 伪 法 让 你 得 出 了 同样 的 答案 ， 对 吗 ? 可 并 非 一 贯 
如 此 。 满 意 法 的 严重 问题 ”是 ， 当 人 们 在 未 对 其 他 假设 进行 透彻 分 析 的 
情况 下 选取 东 种 假设 时 ， 往 往 会 坚持 这 个 假设 ， 即 使 反面 证 据 推 积 如 
山 ， 也 往往 视而不见 。 证 伪 法 则 让 人 们 对 各 种 假设 感 党 更 敏锐 ， 从 而 
防止 挥 入 认 知 陷阱。 


进行 假设 检验 时 ， 要 使 用 证 伪 法 ， 回 避 满 意 法 。 


动 动笔 


试 试 证 伪 法 ， 划 挥 有 证 据 证 明 其 错误 的 假设 。 


假设 1: 慨 设 2: 


银 设 3 
明天 发 布 新 下 个 月 发 布 新 半年 内 发 布 
产品 产品 新 产品 





Se 
入 是 从 和 齐 柚 设 ， / 


wea gen 


PialP wi 广 产 


玉 宽 妆 对 个 的 个 机 
A 中 [oe | 
3 让 tt 生生 秆 是 六 三 克 注 ， 


Fomors 人 Ti 
和 
9 部 志 | 大 干 出 洒 





你 会 他 对 季 P 党 者 
币 ” 入 小 半 民 区 及 小 灌区， 是 录 吉 
冯 困 十 SI 了 





你 为 什么 相信 证 据 证 明 你 所 选取 的 假设 是 错误 的 ? 


哪 种 假设 被 证 明 是 错误 的 ? 


概 设 2; 经 设 3; 朗 设 4; 
下 个 月 发 布 新 半年 内 发 一 年 内 发 布 新 
产品 新 产品 产品 



















MacPhyir KK 
二 交 了 区 1 六 不 


大志 让 反 从 出 于 


这 条 证 撕 草 





从 了 起 证 1 





世上 没有 傻 问题 


问 : ”看 来 证 伪 法 是 一 种 分 析 形 式 很 复杂 的 方法 ， 真 的 有 必要 用 这 
种 方法 吗 ? 


答 : “这 是 一 种 了 不 起 的 办 法 ， 可 以 克服 人 们 专注 于 错误 答案 而 无 
视 于 其 他 答案 的 天 然 倾 癌 。 通过 强迫 目 己 以 完全 正规 的 万 式 思 考 问 题 ， 
会 减少 因 忽 视 重要 的 特征 情况 而 犯错 误 的 可 能 性 。 

问 : ”这 类 证 伪 法 与 统计 学 上 的 假设 检验 有 何 关系 ? 


答 : ”你 在 统计 课 上 (或 在 《深入 浅 出 统计 学 》 中 ) 可 能 已 经 学 过 


一 种 对 候选 假设 〈 备 择 假设 ) 和 基准 假设 〈 原 假设 ) 进行 比较 的 方法 ， 
其 目的 是 识别 出 一 种 情 次 : 如 打 这 种 情况 为 真 ， 则 诛 假 设 几 乎 不 可 能 成 


YY 








问 :” 那 我 们 为 什么 不 用 那 种 方法 呢 ? 





答 : ”这 种 方法 有 一 个 优点 ， 能 让 你 把 品质 各 异 的 异 质数 据 综合 起 
来 ， 这 是 非常 普通 的 证 伪 法 ， 对 于 复杂 的 问题 非常 有 用 。 但 是 ， 定 下 心 
来 使 用 上 述 频率 论 者 假设 检验 方法 肯定 ” 没 错 ， 因 为 对 于 数据 与 参数 相 
吻合 的 检验 ， 你 是 不 会 想 用 别 的 方法 的 。 


问 : 我 想 ， 要 是 同事 们 看 到 我 用 这 个 推理 办 法 ， 上 肯定 和 觉得 我 ; 
本 二 


答 : ”要 是 你 能 挖 出 一 些 真 正 重 要 的 东西 ， 他 们 肯定 不 会 笑 你 。 优 
苍 分 析 师 的 理想 是 找到 复杂 问题 的 非 直 觉 答 案 ， 你 会 愿意 聘用 一 个 思想 
保守 的 数据 分 析 师 吗 ? 如 果 客 户 真 正 有 兴趣 从 数据 中 挖掘 一 些 新 信息 ， 
束 会 寻 涡 能 想 人 所 不 能 想 的 人 才 。 


问 : ”看 来 并 非 所 有 假设 都 一 定 能 被 证 伪 ， 比 如 ， 某 些 证 据 可 能 会 
对 假设 不 利 ， 却 无 法 推翻 假设 。 


答 : 完全 正确 。 





汉 


问 : 数据 在 哪里 呢 ? 我 希望 能 看 到 更 大 量 的 数据 。 

答 : 并非 只 有 数字 表格 才 叫 做 数据 。 假 设 检验 中 所 使 用 的 证 伪 法 
让 你 对 “数据 "有 更 广博 的 观察 ， 能 综合 大 量 异 质数 据 ， 你 几乎 可 以 将 任 
何 数据 放 入 证 伪 结构 中 。 


问 : ”使 用 证 伪 法 解决 问题 和 使 用 优化 法 解决 问题 有 何 差别 ? 

















答 : ”两 者 是 适用 于 不 同情 况 的 不 同 工 具 。 在 某 些 情 况 下 ， 你 希望 
冲 进 “Solver” 调 整 变 量 ， 和 直到 得 到 优化 数据 ， 在 为 一 些 情况 下 ， 你 希望 
使 用 证 伪 法 来 剔除 对 数据 的 其 他 可 能 解释 。 


问 : 好 。 要 是 我 无 法 用 证 伪 法 剔除 所 有 假设 ， 该 怎么 办 呢 ? 




















千 得 籽 ! 我 规 在 知道 拘 东 西 比 刚 找 到 
你 时 多 多 了 ,能 挤 得 再 将 点 吗 ? 再 昌 
除 丙 种 和 假设 行 未 ? 








还 剩 下 三 个 假设 ， 看 来 证 从 
法 设 霄 完全 解决 问题 ， 观 在 
有 何 打算 ? 


如 何在 剩余 三 个 假设 中 做 出 选择 ? 


你 知道 ， 选 出 看 上 去 证 据 最 充足 的 假设 并 不 是 一 个 好 办 法 ， 而 证 伪 
法 只 帮助 你 剔除 了 两 个 假设 ， 现 在 该 怎么 办 呢 ? 





最 德 嘱 种 假设 会 被 认定 纹 最 强 假 设 吕 .? 


动 动笔 


每 种 假设 别 除 技术 各 有 何 优 缺点 ? 
将 各 种 假设 与 证 据 进 行 比 较 ， 挑 出 最 可 信任 的 一 种 。 


对 假设 进行 评级 ， 不 利 证 据 越 少 的 排 在 越前 面 。 


动 动笔 解答 


选 出 自己 最 辟 欢 的 假设 剔除 技术 了 吗 ? 





将 各 种 假设 与 证 据 进 行 比 较 ， 挑 出 最 可 信任 的 一 种 。 















稍 等 ， 把 看 上 寺 最 强 鹏 候 设 掉 在 最 前 面 含有 史 下 
吧 ， 这 示 是 灾 成 用 满意 法 选 出 我 们 串 蓉 的 假设 ， 
而 处 是 选 出 具有 最 强 证 据 支 持 哆 仿 设 ? 






只 要 是 通过 观察 诊断 性 对 证 据 和 假设 进行 比较 ， 就 不 会 如 此 。 

只 要 证 据 能 够 帮助 你 按照 强 弱 程度 对 假设 进行 排列 ， 它 就 具有 诊断 
性 ， 因 此 ， 我们 的 做 法 就 是 : 将 假设 与 证 据 逐 条 进行 比较 ， 看 看 哪 种 
假设 具有 最 强 的 证 据 文 持 。 


让 我 们 好 好 看 看 这 个 方法 .…… 


术语 角 








诊断 性 ”是 证 据 所 具有 的 一 种 功能 ， 能 够 帮助 你 评估 所 考虑 的 假设 
的 相对 似 然 。 如 果 证 据 具 有 诊断 性 ， 就 能 帮助 你 对 假设 排序 。 


信 助 诊断 性 找 出 否定 性 最 小 的 假设 

只 要 能 够 帮助 你 评估 各 种 假设 的 相对 强度 ， 证 据 和 数据 就 具有 诊断 
性 。 下 表 对 各 种 证 据 和 假设 逐条 进行 了 比较 ，“+” 表 示 证 据 支 持 假设 ， 
一 表示 证 据 不 利 假设 。 

在 第 一 张 表 中 ， 证 据 具有 诊断 性 。 


分 配给 各 个 数值 葛 上 相 宣 作 行 严 福 ， 却 
消 关 冯 观 ， 困 此 请 尽 办 进行 判断 ， 


设 1 有 用 ……… 更 有 用 。 


这 第 证 所 县 有 论断 怪 ， 
/ 


( \ H1 H2 /H3 
3 ”证据 1 这 ++ i 
) 


注 条 证 据 并 未 完全 将 定名 设 3， 
却 念 我 们 怪 疑 贪 设 3. 


另 一 张 表格 则 相反 ， 证 据 并 无 诊断 性 。 


这 条 证 据 没有 诊断 性 / 人 ) 


证 据 2 二 + 


一 ~ 这 条 证 据 可 馈 看 起 来 提 响 意 尼 ， 但 除 斐 幅 
磊 助 宾 们 谋 定 侯 设 ,器 则 用 处 未 大 ， 


进行 假设 检验 时 ， 重 点 是 要 识别 和 找 出 诊断 证 据 ， 非 诊断 证 据 不 会 
给 你 带 来 任何 进展 。 


让 我 们 看 看 这 些 证 据 的 诊断 性 


练习 


仔细 查看 手头 的 证 据 ， 与 每 一 个 假设 进行 比较 ， 用 加 号 和 减 号 及 诊 
断 性 来 评定 这 些 假设 。 





圆 说 出 每 一 条 证 据 是 支持 还 是 反对 每 种 假设 。 
园 ” 划 掉 不 具有 诊断 性 的 证 据 。 








PoxlPhene 仁 新手 所 上 的 投 癌 之 秋风 天 
前 浏 
要 上 是 ' 品 他 东 二 的 二 机 : 上方 苇 和 格 会 入 韦 
站 
bodPhrcna 兰 十 执 和 下 说 “我 们 路 人 已 
雁 想 居 玉 栏 书 新 和 十 六 。" 

党 劳 忆 对手 刚 刚 妈 市 了 一 起 性 伟 读 盐 
问 新 三 机 
和 好 沪 习 申 ， 详 狐 知 志 出 洋 洛 
振 传 ，PzrcPnone 昕 市 淖 人 宫 赤 示 今 年 


相安 六 中 条 广 司 









练习 解答 


你 的 假设 评定 下 来 如 何 ? 


国 说 出 每 一 条 证 据 是 支持 还 是 反对 每 种 假设 。 





园 ” 划 掉 不 具有 诊断 性 的 证 据 。 


由 得 严 二 党 区， 
境外 网 旨 | ” 
前 三 县 证 撕 款 其 窜 而 性 ， 
比 后 百 忆 息 骆 ， 





Ead3snpr5 亚 关于 区 妆 撑 将 二 上 去 二， 
旨 睹 充 委 2t 二 mt 年 柯 2 让 | 
改进 
一 Sor a 执行 号 双 “我 并 3 了 v | 
第 在 避 六 推出 新 三 和 。" 














的 等 手 只 广 > 一 十 十 本 
SS 

握 传 ，PpdP1ons 妆 府 执 行 官 衣 示 今年 了 

不 宾 发 有 靳 产品 天 





正光 体 所 吏 ，PreaPhon 亿 加 对 多 
与 意 刍 似 革 的 新 手机 县 弄 内 振 ， 


点 个 外 性 向 ， 意 争 对 所 换 新 攻 筷 吾 能 
多 在 市 场 上 这 粮 ， 这 对 就 访 PodmPhone 


行 梁 了， 
E a 具 视 在 开始 库 一 年 向 ， 手 污 可 铝 
裁 们 北 使 同 过 两 尊 证 据 对 侦 莽 2 加 pron 


假 扔 3 进行 证 倪 ， 因 切 浊 是 伟 言 ， 济 小 关 决 定 半袖 说 足 快 发奋 


无 法 一 一 剔除 所 有 假设 ， 但 可 以 判定 哪个 假设 最 
强 


尽管 手头 的 证 据 无 法 让 你 仅 留 下 一 个 假设 而 剔除 其 余 所 有 假设 ， 却 
可 以 在 剩 下 的 三 个 假设 中 找 出 否定 证 据 最 少 的 一 个 假设 。 


要 是 没有 更 多 信息 ， 这 个 假设 束 是 你 最 好 的 选择 。 














证 个 红 投 谨 双 SS 这 不 便衣 最 如 { 流 信阳 刘 











铬 完全 稚 说 服 了 .并 决定 短期 向 未 生产 手机 皮肤 . 
项 星 接 下 来 能 摘 到 消息 . 社 伯 们 寅 爹 确定 是 在 访 
个 目 收 向 这 是 之 后 其 个 时 间 生 产 . 


i 
了 预期 胎 效 果 ， 


不能 形 咎 生 舌 . 太 精 了 ……… 
好 让 TPodTlone 上 调 前 生产 出 来 
全 更 带 码 、 赚 主 银 ， 


你 刚刚 收 到 一 条 图 片 短信 .……. 
你 的 同事 刚才 在 一 家 餐厅 看 到 了 这 一 队 Podphone 员 工 。 


大 家 正在 分 发 新 手机 “， 尽 管 你 的 线 人 没 法 凑 得 很 近 ， 但 他 认为 这 
就 是 那 知 手机 。 


这 盐 PodDhone 员 工 访 
什么 滩 得 后 舍 光 7 
\ 





发 了 手术? 手机 杂 祥 之 罕 痢 有 匈 填 了 ， 
汉人 计 公 到 种 打样 按 个 并 衣 仿 ? 


这 是 新 证 据 。 
最 好 再 看 看 假设 表 ， 可 以 把 这 个 新 信息 放 到 假设 检验 中 ， 然 后 再 做 


一 次 ， 也 许 会 帮助 你 更 进一步 分 析 各 种 假设 。 


动 动笔 


再 做 一 次 假设 检验 ， 这 次 加 入 新 证 据 。 


叶 阅 争 烛 手 天 列 完 布 了 一 餐 性 吾 竹 


趟 的 当 于 1 一 十 十 Ne, 





茎 沪 习 区 消 此 者 所 霹 风 
拒 使 ，PR 革 Phonrne 首 此 括 . 抹 和 官 表示 今 秆 
小 守 发 市 新 产 兄 





个 
在 泛 旺 品 下 新 证 撕 , 一 一 


在 证 据 表 中 加 入 新 证 据 ;， 确 定 新 证 据 的 诊断 强度 。 


这 条 新 证 据 是 否 改变 了 你 对 “PodPhone 是 否 将 发 布 新 手机 〈 电 
肤 是 否 该 开始 生产 ) ”的 估计 ? 


新 证 据 改 变 你 对 于 各 种 假设 的 相对 强度 的 看 法 了 吗 ? 如 何 改 变 ? 











芝 旺 上 上 共 宁 | 





Se | 


Phz 站 证 执行 它 杰 示 学 三 





不 会 发 布 东 关中 一 

法 人 酒 见 三 发 团队 站 和 刘 类 副 总 税 

会 ， 条 加 殉 人 人 人手 里 疡 拿 测 新 半 机 ， t+++ 
ph 


流 基 未 有 力 让 拒 ， 一 一 


在 证 据 表 中 加 入 新 证 据 ， 确 定 新 证 据 的 诊断 强度 。 


加 ”这 条 新 证 据 是 否 改变 了 你 对 “PodPhone 是 否 将 发 布 新 手机 〈 电 
肤 是 0 “的 合计 ? 





即将 上 市 ! 


你 的 分 析 准 确 无 误 ， 电 肤 设计 了 一 系列 非常 酷 的 手机 皮肤 ， 就 等 
PodPhone 新 机 型 上 市 。 












谢谢 您 ， 冀 们 终于 苦 出 手机 即将 上 市 ， 
已 纵 鸭 手机 准备 了 各 种 各 祥 有 意思 山 新 庄 
肤 。 另外 ， 我 们 说 竞 童 对 手 者 认 治 PudPhane 
了 打算 发 布 新 和 手机， 因此 我 们 是 礁 一 修好 滩 
备 鹏 厂家 ， 玫 在 载 们 正 淮 备 横扫 市 场 ! 


干 得 好 ! 


6 贝 叶 斯 统计 
军 越 第 一 天 






他 说 他 和 别人 和 一 
样 ， 可 究竟 有 多 大 未 


数据 收集 工作 永 不 停 奶 。 


必须 确保 每 一 个 分 析 过 程 都 充分 利用 所 搜集 到 的 与 问题 有 关 的 数 
据 。 虽 说 你 已 学 会 了 证 伪 法 “， 处 理 异 质数 据 源 不 在 话 下 ， 可 要 是 磁 到 
直接 概率 ”问题 该 怎么 办 ? 这 就 要 讲 到 一 个 极其 方便 的 分 析 工 具 ， 叫 做 
贝 叶 斯 规则 ， 这 个 规则 能 帮助 你 利用 基础 概率 和 波动 数据 做 到 明 察 秋 


= 到 。 





医生 讲 来 恼人 的 消 县 
你 没有 眼花 一 一 医生 给 了 你 一 份 蜥 蝎 流感 诊断 书 。 
好 消息 ”是 蜥 蝎 流 感 并 不 致 合 ， 在 家 治疗 几 个 星期 即 可 痊愈 ; 坏 消 


生 是 蜥 蝎 流感 极其 厂 烦 ， 你 不 得 不 葡 业 ， 不 得 不 与 心爱 的 人 离别 好 几 
人 星期。 











| 蜥 蝎 流 感 试验 报告 


日 期 : 天 
姓名 ， Head ei 
诊断 结果 : 阳性 
蜥 蝎 流 感 资料 ~ 


疾病 ， 最 早出 蝎 研 究 人 员 
当中 。 A 








a 上 蜥 赐 流感 的 患者 会 “ 叶 百 
缚 宣 ,” ， 极 严重 情况 下 会 长 出 “温度 


色素 体 ” 和 “ 蜥 蝎 足 ”。 








*P 访 ， 0 咳 * 


医生 确信 你 已 染病 在 里 。 不 过 ， 由 于 你 对 数据 分 析 已 经 得 心 应 手 ， 
所 以 可 能 想 看 看 试验 结 末 ， 了 解 了 解 试验 结 末 的 准确 性 。 


动 动笔 


火速 上 网 搜索 蜥 蝎 流 感 诊 断 试验 ， 收 获 如 下 试验 正确 性 分 析 报 








9082 着 丰 
亲 捐 委 
| 
| 是 由 流感 诊断 试验 











正确 性 分 析 报 告 
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大 共 人 未 点 斯 恕 流感 : 党 芷 让 果 为 阳性 


的 柑 率 为 9 各 。 这 个 欧 计 值 插 巷 瘟 龟 。 





根据 这 个 信息 ， 你 觉得 自己 患 蜥 蝎 流 感 的 概率 有 多 大 ?是 如 何 得 出 
这 个 判定 的 ? 


动 动笔 解答 


你 刚刚 看 过 一 些 关 于 蜥 蝎 流 感 诊断 试验 有 效 性 的 数据 ， 经 你 判断 ， 
你 的 患 病 几 率 如 何 ? 


蜥 蝎 流感 诊断 试验 
正确 性 分 析 报 告 
硅 某 人 已 患 蜥 蝎 流感 : 试验 结果 为 阳性 的 概率 为 90%。 
硅 某 人 未 患 蜥 蝎 流感 : 试验 结果 为 阳性 的 概率 为 9%。 





根据 这 个 信息 ， 你 觉得 自己 患 蜥 蝎 流 感 的 概率 有 多 大 ?是 如 何 得 出 
这 个 判定 的 ? 
esl ene ed Nd hs di 
六 作 部 高 清 先 沾 病 ， 因 此 直 家 相信 计 娃 输 航 前 怖 ” 训 ， 人 入 守业 于 环 尘 站 名 者 于 9096 
oo 


答 宁 绪 75% 少 得 多 ! 





小 心 | 


对 于 这 类 问题 ， 大 多 数 人 的 答案 都 是 75% 一 一 这 大 错 特 错 了 。 


75% 不 止 是 个 错误 答案 一 一 它 连 正确 答案 的 边 儿 都 没 摸 着 。 要 是 
想 着 < 我 得 蜥 蝎 流 感 的 概率 为 759%”， 据 此 开始 推断， 结果 会 错 得 
更 离谱 ! 














在 得 出 正确 答案 之 前 ， 有 太 多 问题 需要 解决 。 
我 们 要 彻 感 从 头 开始 .……. 


让 我 们 逐条 细 读 正确 性 分 析 

分 析 报 告 针对 试验 给 出 了 两 类 平分 秋色 的 断言 ， 表 明 :“ 阳 性 ”试验 
结果 的 概率 随 试验 对 象 是 否 患 蜥 蝎 流感 而 发 生变 化 。 

因此 ， 让 我 们 想象 有 两 个 不 同 的 空间 ”， 一 个 空间 里 有 大 量 的 人 串 


蜥 蝎 流 感 ， 男 一 个 空间 里 几乎 没有 ”人 患 蜥 蝎 流感 ， 然 后 再 来 观察 未 患 
蜥 蝎 流感 的 人 的 “阳性 ”概率 断言 。 


-一 师 蜗 流感 诊断 试验 一 


正确 性 分 析 报 告 









若菜 人 已 串 蜥 蝎 流感 ， 试验 结 果 为 阳性 
的 概率 为 90%4 。 
从 这 几 和 开始 。 


若 某 人 未 患 蜥 蝎 流 感 ， 试 验 结 果 为 阳性 
| 的 概率 为 9% S 





让 我 们 看 看 这 身 话 


动 动笔 


仔细 观察 第 二 条 断言 ， 回 答 下 列 问 题 : 


蜥 蝎 流感 诊断 试验 
正确 性 分 析 报 告 


硅 某 人 未 患 蜥 蝎 流感 : 试验 结果 为 阳性 的 概率 为 9%。 


答 时 揣 扑 一 





蕊 小 问 曙 , BS 
】 
# 
情形 1 情形 2 
刘 果 100 人 中 有 90 人 忆 痪 ， 叶 系 普 名 启明 也 红 年 100 人 中 有 10 估 汶 详 ， 上 业务 木 求 疝 昌 二 
验 泪 甲 具 阶 半 和 到 老少 信 3 附和 花 轴 为 于 性 的 有 本 兴 大 : 
一 二 一 上 全 万 及 
动 动笔 解 各 


患 病 的 人 数 是 否 会 影响 被 误诊 为 阳性 的 人 数 ? 


蜥 蝎 流感 诊断 试验 
正确 性 分 析 报 千 
若 某 人 未 患 蜥 蝎 流 感 :试验 结果 为 阳性 的 概率 为 9%。 


如 两 两 但 广 
100 人 
90 人 
电 所 士 
了 
， 那么 
半天 但 试验 
J 
一 口 
J 阳性 
的 
果 中 有 和 未 患 } 式 果 为 有 多 少 
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小 二 
情形 2 


人 . 人 t 2 
感 :) [a 1 
> 人 么 
LI WW. 
一 
六 性 
人 少 


yy A 十 
MAN 
xX 90 忠 90 义 
人 
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和 996 竺 
0 
5 10 
by 10 
、 试 
J 





蜥 蝎 流 感到 压 有 多 普遍 ? 


看 起 来 ， 起 码 对 于 未 患 病 但 试验 结果 为 阳性 这 种 情况 ， 蜥 蝎 流感 在 
总 人 数 中 占 的 分 量 有 显著 差别 。 


其 实 ， 除 非 我 们 不 仅 知道 试验 正确 性 分 析 结 有 末 ， 而 且 知 道 有 多 少 人 
， 人 否则 ， 我 们 根本 无 法 判断 茶 人 得 蜥 蝎 流 感 的 可 能 性 有 











我 们 需要 多 找 些 数据 
来 弄 明 向 这 个 诊断 访 
验 








你 计算 的 是 假 阳 性 


Pe 0 
入 阳性 。 


这 是 民 苍 2， 抑 尘 组 
过 六 员 朵 如 活 碟 ， 
| 


瑶 是 精 醒 |， 下 市 天 
章 曾 六 定好 距 注 迹 ， 
1 


vd 





we 


-et 


假 阳 性 in 
未 时 蕴 由 多 阳性 人 思 蜥 师 刘 七 
流感 人 
= 台 唱 本 韦 病 清 岂 博识 名 并 间 位 。 


总 壶 一 让 中 陪 导 ， 


与 假 阳 性 相对 的 是 真 阴性 。 


除了 小 心 假 阳性 ， 还 应 考虑 真 阴性 。 真 阴性 指 的 是 未 患 疾病 且 检 
验 结 果 为 阴性 。 


中 音 乏 款 吓 订 刀 防卫 ， 访 竹 苦 末 
臭 让 是 俱 本 从， 得 击 是 其 则 性 
| 


司 闸 性 点 A。 庄 闻 性 






A 


a ar 


闭 革 上 上 居 囊 所 惕 流感， 这 息 站 时 汉阳 性 
灼 洁 谭 沁 习 名 


ea | 
人 阴性 于 7 
惠 . 间 污 包 i Ee 


a 


动 动笔 


尔 党 得 该 用 哪个 术语 描述 这 种 情况 ， 其 反义词 是 哪个 ? 


’ ; 2 
‘~ .1- -AAS NN A Vw 
Ea bs 


二 共 人 二 小 几 如 闵 法 ， 并 分 加 只 ip 
阳性 为 占 训 208055。 


RAR 


ws 2 
2 


你 想 用 哪个 术语 摘 述 蜥 蝎 流感 诊断 试验 的 反面 ? 


法 乓 真 范 地 证 泛 羡 也 注 性 妾 ， 
、 
, 


刀 申 流感 诊断 试验 
正确 性 分 析 报告 


若 基 大 己 至 昌 娩 活 或 ， 训 队 信条 而 信 | 
吗 横 闽南 1026， 


书 某 上 已 号 于 易 流 司 :; 式 些 站 扣 多 阳性 
汶 检 宏光 ns。 





这 些 术语 说 的 都 是 条 件 概 率 


条 件 概率 ” 即 以 一 件 事 的 发 生 为 前 提 的 另 一 件 事 的 发 生 概率 。 假 如 
某 人 的 试验 结果 为 阳性 ， 他 患 蜥 蝎 流 感 的 几率 有 多 大 ? 


这 和 古 你 一 直 在 用 的 两 条 断言 的 条 件 概率 记 法 : 


法 逊 痢 此 该 说 苇 呆 规 得 站， 首 
增高 着 是 业 出 才 如 党 训 ， 





让 此 是 真 阳性 ,一 、 全 向 表 术 因 姓 . -一 一 这 此 各 自 际 此 ， 
ww 
eh BirlL) 1. -Pi-|™ ed 
RS 


Pt+|L=1 .P-L) = 一 
这 二 友和 Es 下 性: 


语 站 本 共生 村 还 二 生 


泸 是 画 性 人 窗 鉴 藻 隶 直入 4) 吝 臣 ， 


肯 捐 村 :省 纲 基 全 
并 车 嘻 [| 旦 涝 ， 中 上 


条 件 概率 记 法 


让 我 们 看 看 这 个 表达 式 中 的 每 个 符号 的 含义 : 
以 阳性 试验 结果 为 条 件 的 蜥 蝎 流感 概率 。 
概率 条 件 


EP 
山 蝎 流感 了 必 _ 阳 性 试验 结果 


假 阳 性 
真 阳性 
假 阴 性 
你 需要 算 算 ”真有 阴性 


要 和 弄 清楚 某 人 患 晰 蝎 流 感 的 概率 ， 其 根本 在 于 了 解 这 些 数字 代表 的 
实际 人 数 。 


符 倒 流放 舌 气 李 的 
-一 实际 大 霓 地 多 


Pt+|-L)， 卉 大 们 未 串 斯 加 沪 避 的 漂 什 卜 ， 某 天 试验 引 如 为 阳性 的 杖 次 


P(+|: 仁太 们 种 增 螺 流 受 的 条 件 下 ， 荣 估 这 旺 尖 有 果 认 阳性 的 瑾 率 
P(-L): 芷 入 们 时 二 蝇 尝 惑 的 尔 件 下 ， 人 
P(-|~L): 在 人 们 未 患 斯 晤 党 惑 的 祭 件 下 ， 茶 入 说 又 知 只 六 阴性 的 慨 亦 





但 首先 要 知道 有 多 少 人 患 了 蜥 蝎 流 感 ， 然 后 可 以 用 这 些 百 分 比 来 计 
算 符合 每 个 组 的 实际 人 数 。 


这 是 你 想 要 的 数字 ! 


we \ 


在 令 验 结果 为 阳性 揭 
前 提 条 件 下 ， 患 蜥 蝎 
流感 的 概率 是 多 大 ? 











啊 ， 我 明 乌 了 ， 
那 各 有 多 冰 人 中 
蜥 蝎 流 感 ? 





1% 的 人 患 蜥 蝎 流感 


研究 表明 总 人 口中 有 1% 的 人 患 有 蜥 蝎 流 感 一 一 这 个 数据 可 以 用 来 
分 析 试 验 结 果 ， 从 人 类 的 角度 上 看 ， 这 个 人 数 非常 多 ， 但 从 总 体 人 口 的 
百分比 上 看 ， 这 个 数字 非常 小 。 


1% 是 基础 概率 ， 在 根据 试验 结果 单独 分 析 每 个 人 的 情况 之 前 ， 你 
道 患 有 蜥 赐 流 感 的 人 口 只 4 有 19%6， 因 此 基础 概率 又 称 作 事 前 概 





疾病 追踪 中 心 正 在 关注 蜥 蝎 流 感 
研究 表明 全 国有 1% 的 人 患 有 晰 蝎 流 感 


上 周 的 最 新 数据 表明 ， 全 国有 1% 的 人 口感 染 蜥 蝎 流感 ， 尺 管 蜥 蝎 
流感 很 少 夺 人 性 命 ， 但 患者 需要 隔离 ， 以 防 感染 他 人 。 


小 心 基础 概率 请 误 








我 倒 觉 得 ，90%6 网 和 页 
阳性 率 玫 示 你 的 确 有 可 
能 种 痛 了 |! 
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SS 
sg 5 
这 是 请 误 ! 

务必 警惕 基础 概率 ， 基 础 概率 数据 不 一 定 在 每 种 情况 下 都 存在 ， 但 
是 ， 假 如 确实 有 这 个 数据 而 你 却 不 用 ， 那 么 ， 你 将 毁 于 基础 概率 请 误 
， 即 忽略 事前 数据 并 因此 作出 错误 决策 。 

在 本 例 中 ， 你 对 自己 患 蜥 蝎 流感 概率 的 判断 完全 取决 于 基础 概 


率 ， 由 于 数据 表明 基础 概率 为 1% 的 人 口 患 蜥 蝎 流感 ， 那 么 ，90% 的 试 
验 真 阳性 率 看 起 来 就 不 那么 能 说 明 问 题 了 。 








动 动笔 


计算 一 下 你 患 蜥 蝎 流 感 的 概率 ， 假 定 以 1000 人 为 基础 进行 计算 ， 将 
人 数 填写 在 以 下 空白 中 ， 按 照 基础 概率 和 试验 指标 分 组 。 


蜥 蝎 流 感 诊断 试验 
正确 性 分 析 报 告 
奉 菜 人 已 患 蜥 蝎 流感 ， 试验 结果 为 阳性 的 概率 为 900%。 
硅 菜 人 未 患 蜥 蝎 流感 ， 试验 结果 为 阳性 的 概率 为 9%。 


/ 
A eo 
二 疝 言 略 忆 云 轴 访 当 娄 上 
让 秦 针 玉 为 不 本 区 宕 末世 内 下 让 防 结 玉英 门 必 涉 疾 学 时 为 附 吕 


姑 莹 日 门 数 晶 汶 孝 日 六 款 二 


二 让 险 钴 果 为 半 世 的 co 
六 件 下 出 旗 芍 格 兴 二 【 峡 病 = 所 性 站 嘻 力 阳 ' 生 的 人 数 : + 局 





你 重新 算出 来 的 目 己 患 蜥 蝎 流 感 的 概率 为 多 少 ? 


蜥 蝎 流感 诊断 试验 
正确 性 分 析 报 告 
硅 某 人 已 患 蜥 蝎 流感 : 试验 结果 为 阳性 的 概率 为 90%。 
在 菜 人 未 患 晰 蝎 流 感 : 试验 结果 为 阳性 的 概率 为 9%。 


15DD 人 
访 验 疙 末 渔 归 性 交大 中 潢 验 络 条 为 梧 性 枫 大 中 
响 944 苦 几 站 RE 有 ?1 吧 束 中 炳 旭 流 万， 
es 19 SN ee 
= 出 标 贞 扫 日 


9 ] Bo 
试 瞧 站 果 占 括 虱 试 蚊 外 胰 为 阴 ' 一 试 坊 纺 录 久 上 怕 
入 数 剖 的 数量 基教 口 


志 桂 三 让 息 所 内 具 际 全 的 人 强 


:机 病 二 试 旷 东 叶 为 也 寺 的 人 答 ] 
1 未 出 外 有 半音 ;外 过 加 了 ' 牛 说 具 人 元 1 


我 患 蜥 蝎 流 感 的 几率 为 9%! 





901 
法币 好 二 为 阿 -- 二 
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9 十 89 


你 患 蜥 蝎 流感 的 几率 仍然 非常 低 
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这 各 是 已 =~_ 侍 紫 壤 流 指 昌 高 是 外 了 间 眉 ， 芒 县 识 隐 性 ; 
侨 酚 性 。 已 阳 手 癌 可 负 恒 更 坟 . 


用 简单 的 整数 思考 复杂 的 概率 


当 你 想像 痢 目 己 在 观察 1000 个 人 时 ， 就 已 经 从 思考 小 数 概率 转换 为 
思考 整数 ”。 我 们 的 大 脑 生来 不 擅长 处 理 概率 数字 ， 因 此 ， 将 概率 转变 








为 整数 ， 然 后 进行 思考 ， 是 避免 犯错 误 的 一 个 有 效 办 法 。 


这 里 有 一 些 处 
理 整 数 的 工具 。 





可 概率 并 不 像 整 数 
那样 显而易见 ， 


搜集 到 新 数据 后 ， 用 贝 叶 斯 规则 处 理 基 础 概率 


信 不 信 由 你 ， 你 刚刚 用 了 一 次 人 们 利用 的 贝 叶 斯 规则 ， 这 是 一 个 强 
悍 无 比 的 统计 公式 ， 有 了 这 个 公式 ， 你 就 能 用 基础 概率 和 条 件 概率 估计 
新 的 条 件 概率 。 


如 未 你 想 用 数学 方 泛 进 行 计算 ， 可 以 使 用 下 面 这 个 怪 醒 怪 样 的 公 


式 : 


法 沾 公 癌 例 社 贞 和 和 
,前面 一 正 交 每 娄 、 


下 种 :| 总 痪 疝 上 1 ™ 


己 隐 性 六 各 芷 入 为 品 | we 
计 刚 术 局 渤 虞 框 二 ， 四 页 泪 性 囊 
PILIPI+ | 了 | 
| 天 = 
PILIPL+|D + PIPI+|~L) 
| 


卡 坏 棉 由 未 庄 襄 曾 关 1 | 
殿 隐 性 总 


贝 叶 斯 规则 可 以 反复 使 用 


贝 叶 斯 规则 是 一 个 重要 的 数据 分 析 工 具 ， 它 提供 了 一 种 把 新 信息 整 
合 到 分 析 中 的 精确 方法 。 


CC 利用 遇 芷 斯 起 则 可 只 
肥 潜 增加 新 信息 ， 







我 的 分 析 我 的 分 析 


(en) + (ee) 
至 础 概率 
我 的 分 析 
(Ce (Gs) 


> 你 高 线 博 流 就 四 
出 正常 人 高 ?位 . 
/ 


1%0 2 


说 庙 验 结果 车 系 是 那么 丘 
信人 
。 汉 是 未 是 访 另 








草酸 让 ， 


你 征订 姓 区 万 攀 极 第 :98% 


生 采 纳 了 这 个 建议 ， 又 做 了 一 项 试验 。 让 我 们 看 看 结 


第 二 次 试验 结束 : 阴性 


医生 上 次 没 给 你 选 更 可 徘 、 更 先进 的 蜥 蝎 流感 试验 ， 因 为 收费 贵 那 
么 一 点 儿 。 可 既然 第 一 项 试验 《便宜 点 、 但 准确 性 兰 一 点 ) 结果 为 阳 
性 ， 现 得 来 真 格 的 了 .……: 


高 红 果 昌 流 让 这 验 报 和 
口 斯 ， 今天 
| 姓名 : A 
诊断 生来 ， 阴 性 
斯 塌 流 澡 资 料 : i 种 的 带 





医生 选 了 一 项 连 有 有 若 别 疾病 ， 基 早出 规 非 灯 惕 斌 完 人 员 
讽 访 验 一 一 “高 级 ” 断 当中 。 ~ 
六 流 蕊 诊断 试验 。 


| eh 强 ， 被 成 当 者 顺 要 生 
守 隔 山神 所 上。 
上 上 本 褒 咸 的 患者 会 吐 天明 


， 极 严 理 居 况 下 会 长 出 远 塌 色 来 居 


共 上 冰刀 中 。 


| 


? 





小 心 ! 


你 之 前 把 这 些 概率 理解 错 了 。 


最 好 再 分 析 一 胃 数 据 。 现 在 你 知道 了 ， 不 考虑 基础 概率 就 紧张 试验 
结果 《甚至 紧张 试验 正确 性 统计 ) ， 不 过 是 在 添乱 罢了 。 


新 试验 的 正确 性 统计 值 有 变化 
用 基础 概率 和 新 的 试验 统计 值 可 以 算出 你 患 蜥 蝎 流 感 的 新 概率 。 


法 是 你 第 一 决 低 验 千 平 . 
| 


晴 赐 流 咸 诊断 试验 a / 


正确 性 分 析 报告 VW 


一 渐 沿 验 届 间 富 ， 但 匠 可 衣 ， 


若 芭 人 已 下 吓 哗 流 同 ， 渤 险 条 所 为 阳性 ”高 级 杂 蝎 浇 咸 育 烦 试验 
的 拔 率 为 90 和 %h。 正确 性 分 析 报 告 


车 于 人 未 由 时 架 江城 ， 试 验 洁 乐 为 阳性 
的 松 宰 为 9 区 。 车 东 人 上, 水 朱 蜗 济 车 : 臣 驻 辣 乐 为 阳性 六 
极 索 为 88 人 rc Gs 






着 亲人 未 丙 间 地 六 旷 ， 这 验 绩 和 i 


槐 率 汶 1%。 


| 
5 了 
六 蜡 正 克 必 数据 间 


~ 过 习 


可 这 








我 们 是 垩 会 合用 癌 坟 的 基础 
的 床 7 仿 胸 入 验 知 这 澡 隔 性， 这 
似 导 稻 谨 确 些 计 名 ， 


Eo 
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动 
动笔 
解答 

已 


你 认 
为 
5 基 
础 
概 
多 
少 








新 信息 会 改变 你 的 基础 概率 
拿 到 第 一 项 试验 结果 时 ， 你 把 大 家 ”的 晰 蝎 流感 发 病 率 当 做 自己 的 
基础 概率 。 


大 家 的 蜥 蝎 流 感 发 病 
率 是 1% 


国共 起 概率 





到 驴 是 个 音 通 公 …… 
没什么 特别 的 


但 你 从 试验 结果 中 了 解 到 ， 你 患 蜥 蝎 流 感 的 概率 高 于 基础 概率 ;这 
个 高 概率 是 你 的 新 基础 概率 ， 因 为 现在 你 属于 试验 结果 为 阳性 的 人 群 。 


在 4 如 


‘ya 现在 你 属于 这 个 群体 。 


试验 结果 为 阳性 的 人 中 有 9% 息 
有 蜥 蝎 流 感 


你 歇 新 基础 概率 





让 我 们 赶快 再 用 贝 叶 斯 规则 算 一 算 .…… 


动 动笔 


让 我 们 以 试验 结果 为 条 件 ， 用 新 试验 结果 和 经 过 修正 的 基础 概率 算 
一 算 你 患 蜥 蝎 流感 的 概率 。 


高 级 蜥 蝎 流感 诊断 试验 
正确 性 分 析 报 告 
若菜 人 已 患 蜥 蝎 流感 ， 试验 结果 为 阳性 的 概率 为 99%。 
奉 菜 人 未 患 蜥 蝎 流感 ， 试验 结果 为 阳性 的 概率 为 1%。 


花 公 ， 戎 8%6 苑 大 ， 瘟 


痕 你 ， 将 移师 如 流 或， 


100D 入 Sx 
2 
志 渍 考 撕 日 未 宙 清 考 孝 上 上 


试 阁 熙 专 义 于 性 所 歇息 果 义 卫 性 三 站 站 采信 此 性 斌 发 引 时 上 阿 ' 三 
区 给 昌 各 吾 明 的 维 昌 汶 教 F 


电 策 下 试 垃 引 全 为 了 阅 ' 土 JI 人数 


筒 日 汪 谷 读 时 芳 辽 入 光大 孝 1+ 
1 未 由 羡 而 谍 擒 注 柴 四 同人 的 太志 ) 


下 站 训 和 妈 不 为 取 性 亿 
凑 什 下 忠 辆 的 状 支 


让 


动 动笔 解答 


算出 你 患 蜥 蝎 流感 的 新 概率 了 吗 ? 


高 级 蜥 蝎 流 感 诊断 试验 
正确 性 分 析 报 告 
奉 菜 人 已 患 蜥 蝎 流感 ， 试验 结果 为 阳性 的 概率 为 99%。 
奉 菜 人 未 患 蜥 蝎 流感 ， 试验 结果 为 阳性 的 概率 为 1%。 


试 发 拓 尼 的 阿 怪 蚁 人 中 消 
936 的 八 宫 晴 提 冰花。 


I 90 


卡 辣 产 涩 下 


让 区 扰 水 为 于 性 让 丛 针 朱 太 周记 
困 效 日 节 凌 日 


13C0 人 人 


试 难 入 采 为 洒 公 欧普 宫 南 
9136 的 信 不光 是 规 说 苞 。 


证 验 江 果 为 门 性 
的 笋 互 


名 病 = 次 尘 果 太 剂 性 世人 数 


东 件 下 水 辣 共 培 床 ”下 疝 是 试 挫 芋 兵 为 沸 性 的 信教 ， | 


丰 讯 驻 乱 玉 廊 此 性 为 


我 患 蜥 蝎 流 感 的 机 会 是 0.1%! 


' 未 扎 病 和 并 


评 站 未 为 习 性 的 A 手 ， 


让 疾 汪 水 为 此 性 
约 数 日 


放心 多 了 ! 
你 用 贝 叶 斯 规则 控制 概率 ， 并 且 现 在 知道 如 何 管理 基础 概率 了 。 


导 免 基本 概率 请 误 的 唯一 办 法 束 是 对 基础 概率 提高 警惕 ， 而 且 务必 
要 将 基础 概率 整合 到 分 析 中 。 


7 


你 得 新 蝎 流 号 的 窒 率 太 低 了 ， 
宽 人 金 未必 放 在 心 上 ， 





现在 不 用 怕 感 冒 了 .… 


7 主观 概率 
信念 数字 化 


和 









音 倍 到 水 油污 空 前 ， 
虑 洽 作 3 千 ， 可 强 
位 给 了 分 。 


虚拟 数据 未 尝 不 可 。 


真 的 。 不 过 ， 这 些 数字 必须 描述 你 的 心智 状态 ， 表 明 你 的 信念 。 主 
观 概 率 ” ”就 是 这 样 一 种 将 严 齐 融入 直觉 的 简便 办 法 ， 具 体 做 法 马上 介 
绍 。 随 着 讲解 的 进行 ， 你 将 学 会 如 何 利 用 标准 偏差 ”评估 数据 分 布 ， 前 
面 学 过 的 一 个 更 强大 的 分 析 工 具 也 会 再 次 登台 亮相 。 





育 水 投资 公司 需要 你 效力 
背 水 投资 公司 是 一 家 商号 ， 依 靠 在 发 展 中 市 场 谋求 模糊 投资 赚 
钱 。 他 们 选择 的 投资 别人 很 难 理解 ， 甚 至 很 难 发 现 。 





， 需 要 分 析 师 具 


公司 的 战略 意味 独 他 们 对 分 析 师 的 才干 “十 分 倚重 
， 以 便 帮 助 背 水 公司 得 到 所 需要 的 


全 可 用 尽 
备 无 懈 可 击 的 判断 能 力 和 良好 的 关系 
制定 妥善 的 投资 决策 。 
可 分 析 师 们 的 纷争 已 经 快 把 公司 吵 震 


意 倒是 绝妙 的 生意 ， 
激烈 的 分 歧 使 得 人 心 澳 散 ， 这 将 成 为 投资 的 一 场 灾难 


能 迫使 公司 关闭 。 





了 


A 
入 居 ? 


背 水 公 司 的 内 部 危机 有 可 


分 析 师 们 相互 叫 阵 


育 水 公司 的 分 析 师 在 许多 地 缘 政 治 趋势 方面 分 歧 严 重 ， 这 给 打算 根 
据 他 们 的 分 析 进 行 投资 的 投资 人 带 来 了 极 大 的 问题 ， 导 致 分 歧 的 问题 五 
化 八 门 。 







分 析 响 造反 了 | 
要 是 再 达 不 成 共识 ， 他 们 人 金 
都 会 离开 ， 


分 监 ” 到 撒 出 在 哪里 ?” 要 是 你 能 帮忙 搞 清楚 分 叔 所 在 并 让 分 析 师 们 
达成 共识 ， 那 束 太 好 了 。 要 不 然 ， 最 起 码 ， 要 是 你 能 以 某 种 方法 确定 分 
歧 ， 让 背 水 公司 的 老板 们 认 清 自己 的 方 辐 ， 也 算 不 错 。 


让 我 们 看 看 争吵 内 容 .…… 





动 动笔 






发 件 人 :， 蕉 水 受 资 公司 高 级 研究 分 析 晤 
收入 大: Heac Fisst 
主题 ”起 油 之 他 












这 此 分 析 醋 意 赤 冲冲。 
| 


在 法 去 六 个 用 里 ， 雹 -各 坚 行 向 局 事 们 论证 我 的 疯 点 冲 南 政 产 
仿 年 可 座 准 备 伴 低 税收 ， 误 们 的 当 翅 加 工 以 以 世 种 新 闻 报 村 骂 证 
洋 了 这 一 点 。 






纹 向 ， 背 不 板 资 “ 分 针 ” 坏 队 二 交 苏 由 一 些 估 可 收 事 认为 这 个 诊 
点 径 疯 锤 ， 上 入 认 当天 是 个 梦想 窜 ， 淮 们 告诉 扑 ， 政 府 的 这 种 罕 
仿 ， 或 老 说 角 也 ， 足 “ 趟 不可 能 的 ”。 行 昱 ， 性 个 作 这 和 补 训 分 在 
梳 招 吗 ? 显然 ， 和 该 政府 正在 藉 局 处 习 投 鹤 ， 我 可 以 这 作 肯 诉 全 ， 
只 本 税 心 一 竺 ， 堆 有 抠 资 就 会 作法 水 一 性 消 过 云 ， 我 们 押 辈 谋 莹 
商 扩 友好 盘 ， 楼 霜 看 
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发 件 人 。 背 水 抵 资 公司 政治 雁 析 晤 
发 中 人 Hegrl Firat 
主题 : 。” 鬼 资 楼 糊 地 域 ， 宣 震 













ek Hl 丰 ， 候 南 。 蔡 水 投资 站 认 读 这 三 坟 批 方 玉 许 避难 
这 我 们 的 答 窜 计 六 各 洒 下 外 ? 丢 罗 加 下 手 焰 淮 妆 补 由 古 泣 中 

他 下 一 向 如 此 ， 俊 办 而 下 一 季 改 民 欧 般 榴 空 公司 的 可 能 性 比 不 收 
四 的 吕 攻 性 更 大 ， 赤 南 今 午 有 本能 安 减 税 ， 月 号 他 们 可 能 示 打 前 
苞 更 僚 国 投资 ;印尼 今生 投资 生态 旅游 疝 可 能 性 比 不 技 广 内 吉 站 
性 更 大， 但 这 不 安 起 太 大 作用 一 旅游 业 各 总 雪 彻 放 塘 扫 。 





务 成 只身 对 迁 三 个 鲁 这 友 ? 







概 走 竺 水 公 坪 不 天 控 一 些 a 3 
Re ne 





















发 伯 人 人 背 水 投资 公司 反 济 研究 部 到 总 楚 
你 竺 入 :Head Firsr 


三 愿 :这 此 人 所 库 去 过 伐 岁 斯 





在 经 济 部 的 芬 析 师 同 壮 不断 全 出 闷 晨 证 工 作成 采 省 这 供 几 才 音 祭 
和 和 胶 凋 工 作 的 同 三 ， 坦 水 撕 资 荐 其 傣 人 所 表现 出 来 的 对 俄 玉 让 内 
池 贡 恋 扩 息 珍 令 天宫 位 。 优 多 必 椒 不 可 能 这 网 区 太 ， 信 门下 一 党 
党 年 下 支 竺 7 池 澡 也 可 能 安县 有 完 以 六 最 类 以 决定 狗 …-… 






发 件 大 ” 背 水 玛 将 公司 初级 夏 实 总 
监 忻 太 ;，hHeaqd First 
主 而 印台 


SN 过 最 高 入 强加 也 
类 去 了 次 吉 








到 丘 目 总 弛 那 三 忆 漆 子 的 。 





来 自 现场 信 浏 断 是 今年 旅游 业 抽 定 太 有 机 全 病 壬 ， 四 尼 全 第 生 六 
if 浙 。 飞 中 卫 训 十 务 击 十 虱 ， 我 开 妈 专 负 是 雯 是 庆 去 总 冬 对 手 拉 
益 司 出 杂 垃 发 要 我 的 联 引 才 稳 …… 


诡 小 有 从 现场 写 冰 了 
次 鞋 邮 什 ， 介 壮大 
前 岂 做 人 章 一 于 网 得， 


导致 分 歧 的 主要 问题 有 哪些 ? 


每 封 邮件 的 撰写 人 部 用 了 一 大 堆 话 来 描述 他 们 对 各 种 事件 的 可 能 性 
的 看 法 。 列 出 他 们 提 到 的 概率 用 词 。 


动 动笔 解 和 个 


-| 


看 过 分 析 师 们 的 电子 邮件 后 ， 你 对 他 们 的 争议 有 何 印象 ? 

















| 量 件 人 下 诬 斤 商 i +t RE 
| EA egel = | a etl 
/ 路 ; 嫉 南 : g 天， 必 洋 模 柯 讲 村 三 识 
| 
\ 六 日 me 我 一 再 点 失 避 于 号 ~ 
4 3 再 事 { UN FE A A NA 
于 的 可 相对 工人 Hy : 
a 评 太 宙 六 而 降 丹东 d= 用- 下 下 个 
而 


让 村 寺 王 一 到 


六 十 ， 营 术 江 次 “和 杂 盾 " 加 六 5 人 DE 
ET 





每 封 邮件 的 撰写 人 都 用 了 一 大 堆 话 来 描述 他 们 对 各 种 事情 的 可 能 性 
的 看 法 。 列 出 他 们 提 到 的 概率 用 词 。 








a 这 么 说 ， 是 让 我 们 来 评 评 谁 对 谁 错 ? 没 问 题 ， 看 看 数 
束 行 了 。 

弗兰克 : ” 别 急 ， 这 些 分 析 师 非 同一 般 ， 他 们 训练 有 素 ， 经 验 
丰富 ， 是 正经 研究 那些 国家 的 专家 。 

弃 : “对 的 ， 首 席 执 行 官 次 他 们 想 要 什么 数据 就 有 什么 数据 ， 
他 们 能 得 到 世界 上 最 棒 的 消息 。 他 们 花 钱 买 专 有 数据 ， 他 们 浜 人 刺 
探 政 府 消 轧 ， 他 们 还 派 人 在 现场 做 第 一 手 调查 。 





弗 兰 殉 : ”地缘 政治 学 是 一 门 很 难 琢磨 的 学 问 ， 它 预测 的 是 单 
个 事件 ”， 这 类 事件 没有 大 量 频 率 数 据 可 供 进 行 更 详细 的 预测 。 他 
们 从 各 种 渠道 搜集 数据 ， 据 此 进行 有 根据 的 猜想 。 
人 你 是 说 这 些 家 伙 比 我 们 精 ， 我 们 其 实 没 办 法 帮 他 们 解 
t 

齐 : 我 们 的 数据 分 析 掺 进去 只 会 让 争论 更 激烈 。 

弗兰克 :其 实 ， 争 来 争 去 都 是 各 个 国家 即将 发 生 的 事情 的 一 
些 假设 ， 分 析 师 们 一 听 到 那些 表示 可 能 性 的 字眼 就 心烦 意 乱 ， 可 
能 ? 大 有 机 会 ? 这 些 话 到 底 是 什么 意思 ? 

吉姆 : 所 以 你 想 帮 他 们 找 出 更 妥当 的 字眼 来 表达 他 们 的 感 
受 ? 咖 ， 这 似乎 是 在 浪费 时 间 。 

弗兰克 : ”要 找 的 可 能 不 是 字眼 ， 而 是 让 他 们 的 判断 显得 更 精 
确 的 东西 ， 昌 说 这 些 判 断 不 过 是 某 些 人 的 主观 信念 .….… 


如 何 让 概率 用 词 更 精确 ? 





主观 概率 体现 专家 信念 


如 朱 用 一 个 数字 形式 的 概率 来 表示 目 己 对 东 事 的 确认 程度 ， 所 用 的 
就 是 主观 概率 。 


主观 概率 是 根据 规律 进行 分 析 的 巧妙 方法 ， 励 其 是 在 预测 孤立 事件 
却 缺 乏 从 前 在 相同 条 件 下 发 生 过 的 事件 的 可 靠 数据 的 情况 下 。 


大 家 都 以 这 种 方式 说 话 …… 但 他 们 到 底 是 什么 意思 呢 ? 










才 相 售 饶 罗 基 支持 石 泪 业 的 所 
六 是 602%6. 










做 办 斯 卜 胡 可 馈 徒 际 支 


Maha 各 搂 证 油 北 腑 几 
大 20265 nr 








和 支持 五 泪 业 蚁 几率 
有 是 80%..-... 






这 此 都 是 立 观 概 素 ， 


这 些 娄 字 出 扫 析 六 用 了 于 所 迷 
自己 信息 殉 用 词 要 将 确 得 季 ， 


主观 概率 可 能 表明 : 根本 不 存在 真正 的 分 皮 

























国 虎 汪 加 二 非 名 胡可 滔 ， 
9 协 条 ! 这 案 鲁 站 可 角 ， 
a 诗 记 ， 起 刘 说 三 业 

斌 刘 阅 几率 沽 弛 锅 。 
ns 扑 吧 ， 禹 沪 遍 沁 
点 汪 事 问 污 于 哺 息 虹 ， 


痢 朱 窟 们 窜 时 让 芭 汉 ， 





家 陪 ，“ 串 当 ”证 癌 
部 可 澡 消 点 过 





起 草 一 份 电子 表格 框 如 ， 其 中 包括 需要 请 各 位 分 析 师 提供 的 主观 概 
率 。 你 会 如 何 构思 呢 ? 


| ) 
和 内 沉 榴 得 到 交 乌 太 打 呈 革 对 页 一 
主 主 洲 画 -就 你 只 外 生菜 分 睹 区 域 消 立 谍 槛 下， 

肌 币 六 号 串 格 


你 想 用 来 描述 分 析 师 主观 概率 的 电子 表格 外 观 如 何 ? 


伐 罗 浙 下 一 香 会 补贴 石油 业 。 
售 轩 浙 下 一 等 特 收 购 欧 航 舰 空 公司 。 


未 档 由 包 若 这 凡 种 越南 对 年 将 减 税 。 
说 读 ， 它们 天 天 袜 南 臣 府 序 年 糙 鼓励 外 国 投资 . 
表 招 最 上 耐 一行， 
匈 尼 少 蕊 此 今年 将 翻身 ， 
襄 尼 区 府 将 投资 生态 施 注 ， 
贷 们 将 站 空 将 中 填写 每 司 
力 折 池 对 每 种 说 读 疯 判 上. 


Ra statementl statsment2 sfatement3 | sfatspvent wtatoments statement6 


(分 折 是 》 【说 流 门 ” 【说 洲 2)】 (说 流 3) | (说 法 4) (说 法 5) (说 流 6) 
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分 析 师 们 答复 的 主观 概率 












这 和 幢 活 还 期 有 惫 恩 ， 只 
统 个 能 度 尖 ， 今 赎 纹 季节 
革 于 导 翁 类 撞 '"'" 











a 0 oy tv mi nme Me We Nm a ~" 
| el 本 
| /1 B E B F F G6 
3 1 Analyst Statement! Statement2 Statement3 Stacement Statement5 Statementé 
2 1 87% Fa 37o% 20 5o% 记号 
3 2 885% A030 419% 56% 28%% 31% 
4 1 as a7% 7% 37% Do 85%5 
5 4 31% 8d3h 2% 36% 如 晤 俐 史 
6 5 91 鸣 37% go 19% 099 72% 
/ ¢ 92 史 6 和 0 30% Lg 18% 于 有 % 
a 和 a7% 47 566% 770% 5o% 36% 
9 4 2 的 6&6 4159 339% 3% 69 听 
0 9 Ba% 59%h B3ch t5o% 17% 74 号 
1 10 92% 23%0 9om 30% 00 31 
2 11 8% 34m Och 58%% 2% 37%5 
12 89% ?3% 46%% 28% 5% 0% 
1 13 92% 703% 155% 33% 2 3q 
14 有 5 BO 350% 35%, 13% a1% 
15 89%b 54% 45% L6% 5% 87% 
16 a0% 67%; 6 1% 199% 3% 70% 
17 92 购 74% 145% 33% Oyo 9% 
18 91% 21% 225% 40% 7% 89% 
15 39 砚 21% 42%% 28% 5% 31% 
小 21 20 91% 36% B70% 279% 59% ad% 





玉生 开 区 证 得 世 珑 起 未 ， 


现在 我 们 已 经 有 所 进展 。 


尽管 你 还 没有 找到 办 法 消除 这 些 人 的 分 歧 ， 但 进展 是 肯定 的 ， 真 正 
的 分 歧 已 经 浮 出 水 面 。 


从 一 些 数据 看 来 ， 分 卜 可 能 根本 没 那 么 大 ， 至 少 对 有 些 事情 是 这 





让 我 们 看 看 首席 执行 官 对 这 些 数据 的 看 法 .….…. 





首 太 执行 官 不 明白 你 在 忙 些 什么 
他 似乎 并 不 觉得 这 些 结果 对 解决 分 析 师 之 间 的 分 歧 会 有 所 助 益 。 


爱 件 人 ”有 有 区 枸 但 公 省 首 内 执行 记 
上 书信: Haas First 
士 题 信 -cE 主 现 悠 宰 ” 只 | 他 对 西 ? 


他 未 觉得 这 内 数 对 六 个 分 析 臣 多 恶 伏 芒 。 有 我 们 诉 和 你 局 的 是 角 / 
富有 位 何 因 两 。 处 耸 析 六 立 门 的 分 二 ， 而 这 天 文 不 过 吓 败 符 
均一 点 的 广泛 别 尘 立 些 多 此 。 所 


NE = 


我 中 雪 道 专 分 六 ， 习 不 是 我 中 技 仅 尖 约 掀 习 ， 


我 作 要 您 斧 的 竺 ， 角 决 汉 毕 分 息 ， 疏 至 消 处 
i Re 
得 一 下 ; 让 我 全 搁 到 好 一 些 物 点 千 ， 先 各: 志 


这 所 补 冯 具 苍 此 去 误 读 们 论 控 资方 素 。 


停 会 分 容 说 信 返 达 了 土 观 概 罕 小 介 析 工 具 ， 


司 官 仍 答 焉 们 某 米 1 之 间 ? 


筷 谤 执行 六 





你 可 能 该 癌 首 席 执 行 官 解释 、 申 述 目 己 搜集 这 些 数据 的 理由 .…… 


动 动笔 


你 的 主观 概率 表 .…… 
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.…… 比 这 些 愤怒 的 邮件 更 有 助 于 分 析 吗 ? 
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Dh ec ol | “ 沽 。。 克 上 关 2 本 天 入 全 囊 电 证 re 
Pe || 六 HY ls 
上 并- 小 导 斌 从 在 双生 47t 二 :下放 人 


各 让 基 订 J 从 中 站 吉 

了 i 忆 物 < et . 
| i 人 ,| FF 一 SEE 上 ， | 人 
”~ 和 本 一 5， EA tt 让 Fe mn FE eT 四 jk 
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广 。 今 门 内 从 宇 近 向 太 和 或， “ 
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动 动笔 解答 


你 的 主观 慨 率 表 .……. 
…… 比 这 些 愤怒 的 邮件 更 有 助 于 分 析 吗 ? 
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| 本 下 虽 芝 SE -着 
CE DD EA 
» RM 家 白人 要 局 六 列 李 站 坟 工 刘 妥 2 从 汉人 人 沁 和 全 站 训 ， 
=' 安 ] 巡 加 伟 训 条 小 之 化 和 澳 。 洒 永 子 全 于 之 全 和 站， 
此 筷 下 天 荆 加 旋 三 入 光合 要 村 二 站 可 其 
ba ed | 

















haai Firsl 


下 大， 
六 芷 芝 张 同 过 来 ， 同 里 站 上 忆 册 基本 上: 


上 
侯 开 了 一些 时 间 ， 可 已 和 
i 访 易 皮 和 白 必 中。 让 我 们 站 这 旦 要 


语 间 部 晶 蜡 | 


动 动笔 


每 个 数值 用 一 个 点 表示 ， 代 表 相 应 的 主观 概率 。 
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纹 轴 实际 上 不 重要 画 点 即 
可 ， 以 便 兰 见 亿 有 等 据点 。 





说 法 1 说 法 2 
汇 容 斯 下 一 季 会 补贴 石油 业 。 俄 罗 坟 下 一 于 将 政 败 欧 驴 骇 宇 公司 。 
> 
这 是 一 
个 实 创 
T FE T T | 
00 02 0.3 oo 0a 40 0.0 02 0.4 Q6 0.g 10 
说 法 3 说 法 4 
越南 今年 将 减 税 。 花 再 收 府 今 二 将 巧 品 外 三 没 姿 。 
1 
WT 
0.0 0.2 04 ob 0.a 1.0 00 02 0,4 o6 08 10 
说 法 5 说 法 6 
记 足 旅游 业 仿 生 梅 熏 各 。 刁 屁 下 上 语 幸 投 资 寺 态 浓 游 - 





动 动笔 解答 


分 析 师 主观 概率 表 在 散 点 图 上 看 起 来 如 何 ? 
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对 演 个 认 针 实际 上 似 季 已 这 


或 杂种 共识 ， 
说 法 1 说 法 2 
健 罗 线 下 一 重 会 补贴 石油 业 ， 筑 软 斯 下 一 季 将 收购 欧 琉 航空 公司 ， 





QO G2 0.4 v6 8 190 bo QZ U4 D6 ug 1.0 


竺 这 沁 祝 法 分 析 沉 伟 各 执 


说 法 3 说 法 4 
护 南 今年 将 减 税 = 就 南 改 用 今年 将 总 励 兴 同 投 资 。 





vo 02 04 [1 DB 1.9 
意见 分成 所 率 示 赵 以 203 ， 只 有 


这 里 让 成 部 分 共 全 ， “人 


说 法 5 说 法 6 
印 老 旅游 业 仿 在 将 狐 身 ， 局 尼 或 机 将 投资 生 悉 许 游 。 








首席 执行 官 欣 黄 你 的 工作 


发 件 人 : 背 水 投资 公司 首席 执行 官 
收 件 人 : Head First 
主题 : 谢谢 ! 


现在 这 东西 的 确 大 有 帮助 。 我 能 看 出 ， 我 们 确实 还 有 好 些 方面 需要 
集中 力量 搞 些 更 好 的 消息 。 


员工 们 看 来 并 没有 真正 的 分 改 ， 这 真是 太 好 了 。 


从 现在 开始 ， 除 非 分 析 师 们 用 主观 概率 给 我 提供 分 析 ， 人 否则 我 什么 
也 不 想 听 《客观 概率 也 可 ， 要 是 他 们 能 办 到 的 话 ) 。 


你 能 帮 我 把 这 些 分 歧 按 照 分 蚊 严 重 程度 排 个 队 吗 ? 我 想 知 道 哪个 说 
法 是 最 有 争议 的 。 











首席 执行 官 





每 个 人 都 能 理解 主观 概率 ， 但 它 远 没有 得 到 充分 的 运用 。 


优秀 的 数据 分 析 师 同时 也 是 优秀 的 沟通 者 ， 主 观 概 紊 则 是 一 种 向 别 
人 精确 地 传达 你 的 想法 和 信念 的 富有 局 示 性 的 表达 方法 。 





动 动脑 


用 哪 种 方法 量度 分 时 和 评定 问题 能 让 首席 执行 官 一 眼 就 看 出 最 严重 
的 分 收 和 问题 ? 


标准 仿 差 量 度 分 析 点 与 平均 值 的 侦 关 


你 想 使 用 标准 偏差 ”; 标准 侦 关 量度 的 是 典型 的 分 析 点 与 数据 集 平 
均值 的 差距 。 


数据 集中 的 大 部 分 点 都 会 落 在 平均 值 的 一 个 标准 偏差 范围 内 。 


个 上 据 集 详 部 分 江 窜 车 
-一 8 值 范 一 个 标准 印 是 花 





文 是 一 -个 数据 条 样 占 ， 





0.0 0.2 0.4 0.6 0.8 1.0 


一 个 标准 偏 莽 = 0.1 

标准 偏差 的 单位 取决 于 测量 单位 ， 在 上 面 的 例子 中 ， 偏 离 平 均值 一 

个 标准 偏差 等 于 0.1， 或 者 说 10%， 尺 管 不 少 点 都 偏离 两 个 或 三 个 标准 贪 
差 ， 但 大 部 分 点 都 比 平均 值 高 或 低 10%。 


在 此 可 以 用 标准 偏 莽 量度 分 上 收 。 主 观 概 紊 偏离 平均 值 的 标准 偏差 越 
大 ， 分 析 师 们 在 假设 成 立 的 可 能 性 方面 的 分 此 就 越 大 。 








用 2xce( 中 网 SYDE 如 公 和 区 
计算 标准 偏 才 ， 


=STDEYV (数据 沁 围 ) 


练习 


然后 ， 按 照 分 此 程度 从 高 到 低 给 问题 排 
了 了。 


你 会 用 哪个 公式 计算 说 法 1 的 标准 偏差 ? 


来 
六 _ 快 米 下 载 ! 
盐 找 已 经 醒 轩 值守 ， 马 村 二 A 


奈 来 依 尖 吉 可 以 徘 序 了 . 
标准 偏 妆 就 可 以 徘 谋 www.headfirstiabs,conmv baoks/hfda/ 
hfda_chOr_ dater_ trarrsposeu.xis 


Sealant! JR 11% e/% JH US UN eb 1% U3 Vee Fh S59 A 1 a 
SrhrmrnM TR Tr TD A Re LA 79 Te /8 TRY 8 3893 Te "RY 1 Lm Ts AR 59 
SuemnG SY 26% Di 2e% fs tb Sh Sh xk DR hh Sh Ih 1h 5% 35 hn 


Sem Gem 0% TD 98 3 60% 17P 09 So 239 3 73% ?70% BLS 51% 657% Tm iy 21% 3 
hn 9 7 sm f 
Srpmnh, FN NIN HS Pee Fe H4 He Hy Pe 1 7 th Eee He Ne TE Fi NR RG TM, 





练习 解答 


你 发 现 了 哪个 标准 偏 莽 ? 
你 会 用 哪个 公式 计算 说 法 1 的 标准 仿 差 ? 


STDEV (B2:U2) 


多 
此 


?9 


在 过 山寺 入 西 数 ， 


范 吉 个 倍 苇 得 划 这 木马 数 . 


Tt de | 


ctoternent2 Ct 0 和 2 各 0K $4 册 物 听 53 入 1 3 入 9 的 国明 59 6 4 jb% 加 号 
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Sterereants ST% 20% DW 2 0 IW SW IW 12% 3% 2 my 0 9 0% 
CterementG 77% 1 C7S 70%W 72% HN 004 GFW 74% SLY 92WY Wh Th MY 67 DY TEN 03% D- 04% 5% 


Ne 


二 -党 
J 
志 
$$ 
5 
a 
a 
9 
了 





可 能 宽 奥 单 去 工 其 要 星 疯 “2 ”楼 积 
才 鱼 曙 于 正确 凋 祝 垃 ， 


酸 示 “Set eachmLg 


【 隆 岂 挤 序 ) 按 是 ， 售 次 一 











排列 曾 种 说 蓄 ， ER 
Ss 
ne 
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着 来 六 法 3 的 标准 沪 关 最 大 地 一 
放 共 如 村 吨 欧 分 夺 革 大 


世上 没有 人 问题 
问 : ”主观 概率 不 算 有 某 种 欺骗 性 吗 ? 
答 : 欺 驴 性 ? 它 的 欺 驴 性 要 比 “ 的 确 可 能 ”之 类 的 含糊 说 法 低 得 


听 别 人 说 话 的 人 可 能 会 在 别人 说 的 话 里 加 入 各 种 各 样 的 含义 ， 因 
指定 一 个 概率 实际 上 是 一 种 欺骗 性 小 得 多 的 传达 个 人 信念 的 办 法 。 








问 : ”我 的 意思 是 ， 当 有 人 看 到 这 些 概 率 的 时 候 ， 难 道 不 可 能 ( 抱 





多 ， 用 了 这 个 词 》 有 这 种 印象 : 给 出 概率 的 人 看 上 去 对 自己 信念 很 肯 


定 ， 其 实 他 们 心里 并 不 是 那么 肯定 ? 


答 : ”你 的 意思 是 说 ， 因 为 数字 是 白 纸 黑 字 ， 所 以 看 起 来 要 比 实际 
情况 显得 更 有 说 服 力 ? 


问 : 正 是 。 





答 : ”这 个 顾虑 有 道理 。 但 主观 概率 像 其 他 数据 分 析 工 具 一 样 : 如 
果 以 欺骗 为 目的 ， 那 么 驴 人 是 很 容易 的 ;但 只 要 确保 客户 知道 你 给 出 的 
人 那么 ， 精 确 地 指出 你 的 信念 ， 实 际 上 对 客户 是 个 天 大 
恩惠 。 





间 : Excel 能 画 这 些 有 小 点 点 的 奇特 图 形 吗 ? 





答 : ”能 画 ,， 但 比较 麻烦 。 这 些 图 形 是 用 一 个 叫做 R 的 程序 画 的 ， 
里 面 有 一 个 函数 dotchart。 你 会 在 后 面 的 章节 里 领略 到 R 的 魅力 。 





二 得 季 。 从 拿 以 后 我 要 根据 这 种 分析 
制定 经 莹 策略; 结果 闻 定 一 片 光明 . 


俄罗斯 宣布 售 出 所 有 油田 ， 称 对 商业 失去 了 信 
惊人 转变 ， 俄 罗斯 总 统 对 国有 工业 喊 之 以 鼻 
“石油 业 到 此 为 止 *， 俄 罗斯 总 统 今日 早 间 在 莫斯科 新 闻 发 布 会 上 语 


惊 四 座 , “我 们 对 这 个 行业 已 经 失去 信心 ， 对 开采 资源 不 再 感 兴 
趣 ......” 










太 糟 了 1! 我 们 都 预测 俄罗斯 会 
继续 保持 对 这 个 行业 的 信心 。 


分 析 浙 





这 条 新 闻 让 你 措手不及 


分 析 师 们 的 最 初 反 应 是 深 感 忧虑 。 普 水 投资 在 俄罗斯 石油 业 投 资 巨 
2 0 0 4 已 
经 看 出 来 了 。 


区 意 














下 


小 


说 法 1 
俄罗斯 下 一 季 会 补贴 石油 业 。 





0.0 0.2 0.4 0.6 0.8 1.0 





可 这 条 新 闻 会 导致 这 些 投资 的 价值 大 幅 缩水 ， 因 为 人 们 会 突然 觉得 
俄罗斯 石油 业 出 大 问题 了 。 但 话 又 说 回来 ， 这 个 说 法 可 能 是 俄罗斯 的 一 
种 朱 略 ， 实 际 上 他 们 可 能 根本 不 打算 出 售 油田 。 


动 动笔 


这 表示 你 的 分 析 错 了 吗 ? 


—、 


尔 该 怎么 处 理 这 个 新 信息 ? 


动 动笔 解答 


你 大 错 特 错 了 吗 ? 
















选 今 为 止 ， 我 们 已 经 讲 过 很 多 分机 工具 ， 可 
能 其 中 叶 一 个 能 够 用 未 指出 加 何 外 订 豆 纲 
概率 。 









最 好 选 一 种 能 够 把 新 信息 整合 到 你 的 主观 概率 结构 中 的 分 析 工 具 。 
你 为 什么 选择 该 工具 ? 


实验 设计 ? 


最 优化 ? 


美观 的 图 形 ? 


假设 检验 ? 


贝 叶 斯 规则 ? 


动 动笔 解答 





最 好 选 一 种 能 够 把 新 信息 整合 到 你 的 主观 概率 结构 中 的 分 析 工 具 。 
你 为 什么 选择 该 工具 ? 


实验 设计 ? 














贝 叶 斯 规则 是 修正 主观 概率 的 好 办 法 


贝 叶 斯 规则 可 不 是 专门 用 来 分 析 蜥 蝎 流感 的 ! 它 对 于 主观 概率 也 大 
有 作用 ， 通 过 它 可 以 把 新 证 据 整合 到 针对 假设 条 件 的 信念 中 。 试 算 一 下 
ee 其 中 H 代 表 假 设 《或 者 基本 概率 ) ，E 代 表 
新 证 据 。 


这 是 用 来 计算 某 人 患 蜥 


pi 
P(L)P(+HL) 


TO P(LL)P(+|L) + P(~L)P(+|~L) 


. 让 上 溉 没 或 立 的 京 人 
六 如 起- 取 x 区 全 品 概 诛 ， ~ , 
已 知 证 据 ， 求 源 假设 的 /A 下 , 证据 只 观 觅 役 率 ， 


各 Vs P(MYPIE FH) 
PITIF) = 
太 PIH)PCEIH) ~ P(--HYp(El--H) 
说 是 你 要 计 黄 眩 、 ~ 
Ne p> 7 
sr 投诚 率 遇 辫 易 绎 束 _ 在 假 证 不 肌 六 多 生生 
CO 证 括 吕 观 网 拉 嵌 ， 


使 用 贝 叶 斯 规则 求 主观 概率 的 根本 在 于 找 出 在 假设 成 立 的 条 件 下 ， 
证 据 出 现 的 概率 。 

当 你 严格 要 求 目 己 将 一 个 主观 概率 分 配给 这 个 统计 值 之 后 ， 贝 叶 斯 
规则 就 能 算出 其 余数 据 。 


你 已 经 有 了 这 些 数 据 : 





这 么 麻烦 午 绝 ? 为 什么 处 回头 击 找 
仿 析 渡 们 ， 让 他 们 根据 自己 对 这 些 事 
件 的 反应 给 出 新 的 至 观 概率 ? 








是 可 以 。 让 我 们 看 看 这 意味 着 什么 .…… 
面对面 








今夜 谈 : 贝 叶 斯 规则 先生 和 直觉 先生 


直 筑 : 贝 叶 斯 规则 : 

我 不 明白 ， 为 什么 分 析 

师 们 不 让 我 姓 外 再 给 一 个 

主观 概率 ， 上 一 次 我 不 是 

做 得 很 好 嘛 。 
你 当然 很 棒 ， 我 人 过 不 及 竺 地 要 把 你 第 一 次 提 
供 的 主观 概率 当做 基础 概率 。 

哦 ， 谢 谢 你 投 我 信任 

票 ， 但 我 仍然 对 分 析 师 得 

到 我 的 第 一 意见 后 就 把 我 

一 脚 踢 开 不 以 为 然 。 





啊 ， 并 非 如 此 ! 你 依然 非常 重要 ， 我 们 需要 
你 提供 更 多 的 主观 概率 ， 指 出 我 们 在 假设 成 
和 


我 还 是 不 明白 ， 为 什么 

我 不 能 直接 给 你 一 个 新 主 

观 概 率 ， 指 出 俄罗斯 将 继 

续 文 持 石 油 业 的 几率 ? 
用 我 来 处 理 这 些 概 率 是 一 种 严谨 、 正 式 的 方 
法 ， 可 以 将 新 数据 整合 到 分 析 师 的 信念 结构 
中 。 此 外 ， 即 使 分 析 师 意识 到 自己 的 错误 ， 
我 也 能 保证 不 让 他 们 对 自己 的 主观 概率 矫 枉 
Es 

真 的 有 人 会 这 样 想 吗 ? 


当然 ， 我 明白 有 些 人 在 计 

算 患 病 概率 时 会 用 你 ， 可 

对 于 主观 概率 也 是 如 此 

吗 ? 
不 错 ， 确 实 ， 分 析 师 当然 不 必 一 有 新 消 妃 就 
用 我 。 但 如 果 风 险 太 大 ， 他 们 束 确 实 需 要 
我 。 如 果 有 人 觉得 自己 可 能 得 了 某 种 病 ， 或 
人 





我 猜 ， 我 得 学 会 告诉 分 
析 师 在 合适 的 条 件 下 用 
0 
风 。o 
要 是 你 愿意 ， 我 们 可 以 画 1000 幅 俄罗斯 形势 
图 ， 就 像 上 一 章 一 样 .…… 
别 ! 哥 儿 们 ， 太 烦人 


练习 


下 面 这 张 电 子 表格 列 出 了 从 分 析 师 们 那儿 收集 的 两 组 新 主观 概率 。 


1) PCEIS1) : 每 位 分 析 师 针对 “俄罗斯 宣布 他 们 将 卖 出 油 
田 ”(E) 给 出 的 主观 概率 ;假设 条 件 : 俄罗斯 将 继续 文 持 石油 业 
CT 


2) ”P(E|~~S1) ， 每 位 分 析 师 针对 “俄罗斯 宣布 他 们 将 卖 出 油 
田 ”(E) 给 出 的 主观 概率 ;假设 条 件 : 俄罗斯 将 不 继续 文 持 石油 业 
(mB1Y 


这 是 在 水 更新 证 提 时 ， 
人 
Wa 


www.headfirstlabs.corrvbookshfda 
hfda_chO7_new probs.xi!s 






在 运 里 写 入 公式 ， 再 
复制 /站 条 从 站 他 分析 
是 数 据 . 


流 了 是 一 个 习 PIH)P(EIH) 
只 斯 规则 . | 攻 RCR 
PUTDP(EIIT + P(-IDPCEI-I) 


练习 解答 


你 用 哪个 公式 来 实现 贝 叶 斯 规则 ， 并 以 此 得 出 “俄罗斯 是 否 支持 厂 
油 业 ”的 新 主观 概率 ? 





这 个 公式 综 仿 了 分 析 听 的 基 WE Oe ne 
概率 妨 仿 析 绵 对 新 喜 据 的 狗 
断 ， ) 


中 此 得 出 新 的 评估 结 录 . 











DO ma pi Ted y Hb! _ esa fid 
一 es em me 
| 及 让 | He Ee ET 





























1 Analyst Pel) Pee!) P(EIS1) P(El~S1) P(S1|E 
ER 1 87% 13% 54% 

3 2 88% 12% 57% 679% 

4 3 89% 11% 55% 39% 92% 
1 4 91% 9% 589% 54% 92% 
6 5 91% 9% 58% 53% 92% 
7 G6 92% B80 64% 49% 94% 
a 7 87% 13% 6596 549h 899 
1 :9 B 92% B% 50% 45% 93% 
| 10 9 88% 12 史 53% 55% 889% 
了 10 92% 8% 62% 51% 93 哆 
E12 11 88% 12% 56% 56% 88% 
| 3 12 89% 11% 59% 62% 89% 
| 14 13 92% 8% 61% 62% 92% 
15 14 88% 12% 656% 40% 92% 
16 15 89% 11% 54% 29% 94% 
17 16 90% 10% 69% 58% 91% 
i8 17 92% Bo% 67% 55% 93% 
1 19 18 91% 9% 14% 55% 72 史 
20 19 89t 11% 22% 93% 66 哆 






91% 16% G5% 











= 这 此 新 数据 外 超 来 很 旺 上 让 敏和 们 
把 这 些 款 据 画 成 浇 点 图 ， 厦 看 和 
基础 概率 相 比 册 何 | 


动 动笔 





用 对 开 页 上 的 数据 在 下 图 中 男 出 每 位 分 析 师 的 主观 概率 点 。 


在 该 心 轴 中 画 出 
E23 码 . 人 正 部 撒 府 
“PIS1IE}™ , 


i 





| ] | 「 
0.0 0.2 0.4 0.6 0.8 1.0 


作为 参照 ， 图 中 给 出 了 新 报导 出 炉 之 前 大 家 对 “俄罗斯 是 否 继 续 文 
持 石 油 业 ?这 个 假设 的 信念 《〈 散 点 ) 。 





这 羡 心 前 拘 主 观 
机 TSE) 
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\ > 
Te 





0.0 0.2 0.4 0.6 0.8 1.0 
新 主观 概率 点 和 旧 主 观 概率 点 的 分 布 情况 相 比 如 何 ? 


首席 执行 官 完 全 知道 该 怎么 处 理 这 条 新 信息 了 










入 入 半 正直 出 读 守 二 省 产 ， 计 届 台 报 总 
吓 出 酌 蔓 和 欧 村 折 印 入 隐 售 管 让 宫 汪 是 疫 
秆 指 小 ， 












| 
I 
韭 求 持 迪 到 用 当 唐 转 行 裤 


经 过 仔细 调查 ， 分 析 师 们 得 出 结论 : 不 管 俄罗斯 是 不 是 真 的 会 停止 
支持 石油 业 ， 俄 罗斯 媒体 部 有 可 能 报导 出 售 油田 的 消息 。 


因此 ， 报 导 最 终 并 未 给 他 们 的 分 析 带 来 太 大 改变 ， 虽 然 有 三 个 例 
外 ， 但 在 相同 假设 条 件 下 ， 分 析 师 们 对 于 “俄罗斯 会 支持 石油 业 ” 的 新 主 
nt [LP (CS1E) ] ”与 他 们 先前 给 出 的 主观 概率 “ LP 〈S1) ] “” 非 
常 相 似 。 


但 分 析 师 对 了 吗 ? 








俄 多 斯 股民 欢欣 或 舞 ! 


分 析 师 是 对 的 : 俄罗斯 所 谓 的 卖 出 油田 是 虚 张 声势 ， 当 众人 意识 到 
一 点 ， 股 市 立即 反弹 ， 这 对 于 背 水 投资 来 说 真是 太 好 了 。 


看 来 你 的 主观 概率 让 背 水 投资 公司 冷静 下 来 ， 大 家 各 得 其 所 ! 


出 花 油 困 消 息 


< 庆 
oe Ni 


qq 
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秆 一 次 童 驱 概率 分 析 


天 
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项 填 寺 衣 





外间 










这 社交 各 等 仇 去 吧 ， 这 接 灵 长 测 合 估 
莫 开 监 。 别 把 记 有 曾 鸡 下 族 芷 同一 个 并 
BE! 





8 局 发 法 
凭 人 类 的 天 性 作 分 析 





现实 世界 的 风云 变幻 让 分 析 师 难以 料 事 如 神 。 


总 有 一 些 数据 可 望 不 可 及 ， 即 使 有 所 能 及 ， 最 优化 方法 也 往往 艰深 
耗 时 。 所 幸 ， 生 活 中 的 大 部 分 实际 思维 活动 并 非 以 最 理性 的 方式 展 
开 ， 而 是 利用 既 不 齐全 也 不 确定 的 信息 ， 和 赁 经 验 进行 处 理 ， 迅 速 做 出 诀 
策 。 奇 就 奇 在 这 些 经 验 确 实 能 够 考 效 ”， 因 此 也 是 进行 数据 分 析 的 重要 
而 必要 的 工具 。 


巡 过 集 问 市 议会 提交 了 报告 


遵 坎 集 是 由 数据 邦 市 市 政府 资助 的 一 个 非 霹 利 团体 ， 他 们 进行 公 
共 宣 传 ， 劝 说 人 们 不 要 乱 扔 垃圾 。 


他 们 刚刚 把 最 近 的 工作 结果 汇报 给 了 市 政府 ， 结 果 出 乎 意料 。 


赦 迫 爸 市 部 垃 虎 量 
我 党 了 10 吕 | ) ~ 
ea 我 们 要 减少 科 
[s) 计量 
9 

















要 旦 府 们 节 拿 出 个 办 法 减少 敬 
汽 渡 二 量 ， 我 们 就 在 一 个 日 骸 
丛 减 将 金 、 


最 后 一 句 话 实在 让 人 担心 ， 要 是 没 法 说 服 市 议会 相信 站 下 集 的 公共 
推广 活动 符合 市 政府 预期 ， 遗 遇 集 很 快 就 会 戎 上 大 麻烦 。 





遗 遇 集 确 实 把 镇 上 打扫 得 干 干净 译 


在 遵 歇 集 开始 管理 之 前 ， 数 据 邦 市 确实 可 谓 脏 乱 送 ， 有 些 居 民 不 珍 
惜 家 园 ， 到 处 乱 扔 垃圾 ， 这 破坏 了 数据 邦 市 的 环境 和 外 观 ， 可 遗 遇 集 
来 了 以 后 ， 一 切 都 变 了 。 

要 是 市 政府 削减 资金 就 粮 了 ， 冰 过 集 需 要 你 帮忙 告诉 大 家 他 们 的 
活动 是 成 功 的 ， 这 样 市 议会 就 会 继续 提供 资金 。 



























我 呈 季 说 载 们 部 活动 
有 其 各 …… 首 帮忙 只) 








廊 遍 全 , 
公共 服务 宜 必 人 刊物 出 版 
学 校 救 育 
涌 理 工作 | 
平方 到 条 齐 人 的 涉 
要 部 市 卜 六 凉快 | 
nd el pp 
动 动笔 


想 出 可 能 使 用 的 计量 方法 完成 任务 。 到 底 该 从 哪里 ”获得 散乱 垃圾 
的 减 小 量 数据 呢 ? 





动 动笔 解答 


到 底 该 从 哪里 获得 数据 说 明 喧 过 集 的 工作 已 经 导致 散乱 垃圾 量 减 小 
了? 








如 过 集 已 经 计量 了 上 自己 的 工作 效果 


遭遇 集 计 量 了 上 自己 的 工作 成 果 ， 但 不 是 计量 以 上 练习 中 所 设想 的 垃 
圾 量 ， 他 们 另 有 一 套 : 公众 调查 。 下 面 是 一 些 调查 结果 。 























他 们 的 根本 策略 是 改变 人 们 的 行为 习惯 ”， 让 他 们 不 再 乱 扔 垃圾 。 
让 我 们 看 看 他 们 的 总 结 .…….. 





收 境 圾 ， 收 培 
亏 啦 | 









见 厂 入 扣 措 这 坦 ， 会 劲 估 们 担 址 占 执 进 二 深 箱 吧 





村 境 基 是 数据 灰 市 的 一 个 问题 昌 ? 


闷 前 先 计 你 了 解 及 严禁 乱 操 境 模 的 后 要 性 了 中 ? 


| 你 支 河 市 里 妾 繁 资 助 迟 总 华 约 教 言 污 动 旺 ? 










他 们 的 任务 是 减少 散乱 垃圾 量 


而 癌 人 们 宣传 改变 行为 习惯 的 必要 性 将 减少 散乱 垃圾 量 ， 对 吗 ? 这 
征 冰 遇 集 的 基本 立场 ， 调 碍 结果 确实 表明 公众 意识 有 所 改善 。 


但 市 议会 对 此 报告 感受 不 深 ， 你 需要 帮助 遗 遇 集 弄 清 楚 他 们 是 否 完 


成 了 任务 ， 然 后 说 服 市 议会 相信 和 他们 工作 有 成 效 。 








动 动笔 


逮 遇 集 的 工作 成 果 是 否 表 明 数 据 邦 市 的 散乱 垃圾 量 有 所 减 小 ? 


动 动笔 解答 





数据 是 否 表明 散乱 垃圾 量 在 遵 遇 集 的 努力 下 有 上 所 减 小 ? 








计量 垃圾 量 不 可 行 














我 们 当 蓝 强 哨 计 重 境 极 量 ， 党 人 京 上 ， 计 告 散 我 后 
域 电 太 中 加 ， 特 流 这 苯 也 太吉 亲 ， 凌 场 人 人 员 都 认 
范 数 据 乍 市 前 所 衫 “IC” 是 担 亡 网， 除了 进入 
调查 ， 训 钝 告诉 我 们 还 储 做 点 什么 7 








这 可 能 是 个 问题 ”。 市 议会 希望 看 到 冰 遇 集 拿 出 证 据 证 明 他 们 的 活 
动 减少 了 垃圾 量 ， 但 我 们 给 市 议会 的 只 有 这 份 观 点 调查 表 。 


如 条 直接 计量 垃圾 量 在 物流 上 的 确 不 可 行 ， 那 么 ， 提 供 垃圾 减 小 量 
数据 这 个 要 求 可 能 会 让 遇 遇 集 功 亏 一 筑 。 


问题 刁钻 ， 回 答 简单 


遵 遇 集 明白 ， 大 家 希望 他 们 做 的 是 减 小 散乱 垃圾 量 ， 但 他 们 决定 不 
作 计 量 ， 因 为 这 样 做 费用 太 高 。 


要 看 个 大 大 的 种 来 称 量 这 瞩 ……， 


pe 
这 办 法 快捷 、 方 便 、 清 楚 ， 可 这 并 不 是 市 议会 要 看 的 东西 。 








你 在 区 之 十 市 卦 拍 芝 垃 入 械 ? 


上 砚 讨 好 蚌 千 沁 动 三 


史 各 协和 几 丰 六 总 生境 执 ， 辫 动 守 们 把 六 瓜 肌 井 垃 关东 1 了 


全 认为 叶 的 广电 是 溉 翅 逢 市 用 个 同 题 凡 : 





池 巷 舍 生 人 椒 了 舍 江汉 儿 名 引 境 息 的 豆 肥 性 二 3 


他 支 村 计生 沪 交 递交 人 尔 四 下 丙 入 动 忆 7 





i 
儿 调查 到 的 观点 情况 ， 


对 刁钻 的 问题 做 出 这 种 反应 实 属 极其 常见 、 极 其 人 性 的 现象 。 我 们 
都 碰 到 过 在 经 济 上 或 认 知 上 “(下 面 很 快 会 谈 到 这 一 点 ) 很 费力 的 刁钻 
问题 ， 对 于 这 种 国手 的 问题 ， 人 们 天 生 的 反应 就 是 答 非 所 问 。 


在 分 析 问 题 时 ， 这 种 简单 化 ”的 方法 可 能 会 显得 极其 错误 ， 尤 其 对 
于 数据 分 析 师 来 说 ， 但 可 笑 的 是 ， 这 方法 在 很 多 情况 下 确实 有 效 ， 而 
且 ， 正 如 你 即将 看 到 的 ， 有 时 这 是 唯一 的 选择 。 





数据 邦 市 的 散乱 垃圾 结构 复杂 


这 和 古 疯 遇 集 的 内 部 调查 文件 ， 文 件 记录 了 你 有 可 能 想 计量 的 散乱 二 
圾 项 目 。 
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这 是 遗 遇 集 总 监 对 这 个 庞大 的 系统 的 解释 ， 她 还 谈 了 这 种 复杂 性 对 
遂 远 集 的 工作 造成 的 影响 。 

发 件 人 : 骆 远 集 总 监 

收 件 人 : Head First 

主题 : 我们 为 什么 无 法 计量 垃圾 量 

为 了 计量 垃圾 量 ， 我 们 得 在 所 有 联络 点 (人 处理 站 、 填 埋 点 等 ) 安排 

2 随时 待命 。 市 里 的 工人 不 会 为 我 们 记录 数据 ， 因 为 他 们 已 经 

全 必 -了 了。 


在 联络 点 安排 员工 会 让 我 们 的 费用 变 成 市 里 给 我 们 的 费用 的 两 倍 ， 
就 算 不 干 别 的 ， 光 是 计量 散乱 垃圾 量 ， 也 没有 足够 的 钱 来 完成 。 


另外 ， 市 议会 只 关心 垃圾 量 是 完全 错误 的 。 











数据 邦 市 的 散乱 世 圾 其 实 是 一 个 复杂 的 系统 ， 扔 垃圾 的 人 各 种 各 
样 ， 垃 圾 种 类 各 种 各 样 ， 扔 垃圾 的 地 点 各 种 各 样 ， 忽 视 整 个 系统 而 
只 关心 一 个 变量 是 不 对 的 。 


无 法 建立 和 运用 统一 的 散乱 垃圾 计量 模型 
为 了 计量 或 设计 一 个 最 优化 散乱 垃圾 控制 方案 而 创建 的 任何 模型 都 
需要 考虑 极 多 的 变量 。 


不 仅 需 要 用 第 用 的 量化 理论 ”来 了 解 这 些 元 素 之 间 的 相互 作用 ， 还 
ee ) ， 以 便 使 散乱 垃圾 量 降 至 
最 低 。 


查 时 使 化 问题 由 目标 邑 款 旬 昭 
从 甘 于 山林 实现 景 天 旧 椒 :. RS 
俏 委 理由 和合 实现 市 





市 议会 第 望 烧 乱 埃 城 量 窗 小 详 时 ,， 我 们 J/ 
J i a 
党 要 天 天 谢 通 集 欧 话 动 贷 译 了 这 一 点 .一 一 


束 算 手 尖 有 所 有 的 数据 ， 这 也 是 个 抹 烦 事 ”， 何 况 你 已 经 知道 ， 要 
得 到 所 有 这 些 数据 费用 太 高 。 


还 有 可 能 让 市 议会 看 到 他 们 想 看 的 东西 吗 ? 


吉尔 : 乱七八糟 ， 市 议会 要 我 们 拿 出 没 法 拿 出 的 东西 。 

弗 兰 死 : ”是 啊 ， 即 使 我 们 能 够 提供 减 小 的 垃圾 量 数据 ， 也 没 
有 什么 用 ; 系统 太 复 杂 J。 

齐 : 嗯 ， 这 些 数据 不 会 让 市 议会 满意 。 














吉尔 : ” 不错， 我 们 的 工作 不 只 是 为 了 让 市 议会 满意 ， 而 是 减 


: 我们 不 能 捏造 些 数据 吗 ? 比 如 自己 估计 垃圾 量 ? 

弗 兰 死 : ”这 是 个 想法 ， 但 很 不 可 徘 ， 我 意思 是 ， 市 议会 看 来 
的 确 是 一 支 强 干 的 队伍 ， 要 是 我 们 捏造 些 主观 数据 来 冒充 垃圾 量 数 
所， 他 们 可 能 会 翻脸 。 

吉尔 : ”捏造 数据 肯定 会 让 遂 遏 集 的 资金 泡汤 ， 也 许 我 们 可 以 
A a te a 








遂 允 集 已 经 试 过 了 ， 没 看 见 市 议会 在 对 他 们 吃 叫 





吗 ? 

吉尔 : ”我 们 可 以 搞 个 评 佑 ， 除 了 公众 观念 ， 再 加 上 一 些 别 的 
变量 。 也 许 我 们 该 试 着 把 能 用 的 各 个 变量 集中 起 来 ， 然 后 再 对 所 有 
其 余 变量 进行 主观 猜测 ? 


弗 兰 死 ， 喝 ， 这 也 许 行 .……. 













得 了 | 或 们 袖 事 情 杭 得 太 
复杂 了 ， 药 什么 杀 能 多 选 一 
两 个 廊 量 分 机 分 折 ， 就 后 访 和 
么 样 就 外 么 样 1 





确实 可 以 从 增加 几 个 变量 开始 。 


如 末 你 打算 选取 一 两 个 变量 ， 然 后 根据 这 些 变量 对 整个 系统 作出 结 


论 ， 据 此 评价 中 遇 集 的 工作 成 效 ， 这 就 是 在 使 用 局 发 法 





启发 法 是 从 直觉 走向 最 优化 的 桥梁 


你 是 和 凭 冲 动 做 决定 ， 还 是 凭 几 个 精心 选取 的 关键 数据 做 决定 ?或 是 
构建 一 个 包含 所 有 变量 的 模型 ， 然 后 得 出 最 佳 答案 ? 


答案 可 能 是 以 上 都 对 ， 而 这 些 答案 却 代表 完全 不 同 的 思维 方式 一 一 
认识 到 这 一 点 很 重要 。 








2 
| 


rE 二 员 芭 瑟 中 3 


有 和 。 
re 
dwt: i EP 
E P 1 生 昌 下 过 导 
A 
人 
机 T 
Fr FR 
| et 
下 
和 2 
已 启 吕 册 阅 生 语 寺 疝 则 站 上 二 2 于 
7 证 - | 
2 
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每 当 解 决 一 个 最 优化 问题 ， 就 会 找到 代表 目标 函数 最 小 值 或 最 大 值 


的 一 个 或 多 个 答案 。 


对 于 数据 分 析 师 来 说 ， 最 优化 可 谓 理想 境界 ， 要 是 所 有 的 分 析 问 题 
0 可 谓 顺 风 顺 水 。 然 而 ， 大 多 数 思维 活动 都 
是 启发 式 的 。 


术语 角 


尼 发 法 ”1 【心理 学 定义 ) 用 一 种 更 便于 理解 的 属性 代 蔡 一 种 难 
解 的 、 令 人 困惑 的 属性 。2. 〔 计 算 机 科学 定义 〉 一 种 解决 问题 的 
方法 ， 可 能 会 得 出 正确 答案 ， 但 不 保证 得 出 最 优化 答案 。 





有 些 心理 学 家 甚至 论述 ， 人 类 的 一 切 ”推理 都 是 局 发 式 的 ; 而 最 优 


化 是 一 种 理想 境界 ， 只 有 在 问题 超 规范 的 情况 下 才能 发 挥 作 用 。 


然而 ,不管 是 谁 ， 只 要 打算 迎战 超 规范 的 问题 ， 就 要 做 个 数据 分 
析 师 ， 因 此 还 不 能 丢掉 Solver。 只 是 别 忘 了 在 分 析 工 具 装 备 中 收藏 构思 
合理 的 局 发 式 决 集 方案 这 个 必 不 可 少 的 工具 。 


世上 没有 伊 问 题 


问 : ”把 一 个 无 法 保证 得 到 正确 答案 的 决策 过 程 叫 作 数 据 分 析 ， 真 
稀奇 。 难 道 不 该 把 这 种 事 叫 作 猜 想 吗 ? 


答 : ”不 能 这 么 说 ! 你 看 ， 数 据 分 析 的 根本 在 于 妥善 分 解 问题 、 为 
数据 套 上 适当 的 心智 模型 和 统计 模型 、 作 出 正确 的 判断 ， 但 并 不 保证 次 
次 得 到 正确 答案 。 


问 : ”假如 我 的 目标 是 最 优化 ， 可 我 稍稍 试 了 一 下 启发 式 思考 ， 
党 不 错 ， 难 道 我 就 说 不 上 在 坚持 寻找 最 优化 结果 了 ? 


答 : “那样 说 很 公正 。 要 是 手头 有 更 好 的 、 可 行 的 最 优化 工具 ， 当 
然 没 人 想 用 局 发 式 分 析 工 具 ， 但 重点 是 要 认识 到 ， 局 发 法 是 思维 过 程 的 
基本 组 成 部 分 ， 也 是 数据 分 析 方 法 的 基本 组 成 部 分 。 


问 : ”那么 心理 学 对 启发 法 的 定义 和 计算 机 科学 对 启发 法 的 定义 有 
何 区 别 ? 


答 : 其实 这 两 种 说 法 非常 相似 。 在 计算 机 科学 中 ， 启 发 式 算法 能 
够 解决 一 些 问 题 ， 但 人 们 无 法 证 明 ”这 种 算法 能 够 无 一 例外 地 得 到 正确 
答案 ; 计算 机 科学 中 的 启发 式 算 法 常常 比 那 些 能 够 保证 得 到 正确 答案 的 
算法 更 快 、 更 简单 ; 还 有 ， 往 往 一 个 问题 只 能 用 启发 式 算 法 来 解决 。 

问 :” 这 和 心理 学 有 何必 然 关 系 ? 

答 : ”心理 学 家 通过 实验 研究 发 现 ， 人 们 时 刻 在 使 用 认 知 启发 法 。 
争 相 引起 人 们 注意 的 数据 实在 太 多 ， 于 是 人 们 必须 赁 经 验 作 决 定 。 为 数 


人 
2 








说 


























问 : 人 类 的 思维 过 程 与 最 优化 过 程 并 不 相似 ， 这 颇 为 明显 ? 


答 : 各 人 有 各 人 的 看 法 。 对 于 那些 坚定 地 认为 人 类 是 理性 生物 的 
人 来 说 , “人们 不 是 以 较 全 面 的 方式 思考 所 有 感官 信息 ， 而 是 使 用 收效 
显著 但 含混 不 清 的 经 验 法 则 ”这 个 说 法 可 能 会 让 他 们 感到 不 快 。 




















问 : ”这 么 说 ,，“ 大 量 推理 都 是 启发 式 的 ”这 个 事实 说 明 “ 人 是 非 理性 
Hy 


答 : ”这 要 看 你 怎么 定义 理性 这 个 词 。 如 果 理 性 代表 这 种 能 
以 内 电 般 的 速度 处 理 海量 信息 的 每 一 个 数位 、 构 建 完 美的 模型 利用 这 些 
信息 、 能 够 无 可 挑剔 地 执行 模型 给 出 的 建议 ， 那 么 ， 没 错 ， 你 是 非 理性 
的 。 问 : 这 真是 对 理性 的 高 标准 定义 。 














答 : 如 果 你 是 一 台 计算 机 ， 这 标准 就 不 算 高 。 
问 : ”这 正 是 我 们 让 计算 机 为 我 们 做 数据 分 析 的 原因 


答 : ”Solver 之 类 的 计算 机 程序 生存 在 认 知 世界 里 ， 这 个 世界 的 依 
据 信 息 由 你 决定 ， 而 你 对 依据 信息 的 选择 则 受制 于 自己 的 思维 以 及 手头 
和 
LL1E, 








问 : ”又 由 于 一 切 模 型 都 是 错误 的 ， 但 其 中 一 些 是 有 用 的 ， 即 使 用 
计算 机 计算 最 优化 问题 ， 一 旦 应 用 范围 扩大 ， 也 会 与 局 发 式 算法 颇 为 相 
似 。 所 选择 的 依据 数据 区 怕 永远 无 法 涵盖 与 模型 有 天 的 一 切 变 量 ;， 于 是 
只 得 挑选 最 重要 的 变量 。 








答 : ”这么 想 吧 : 数据 分 析 的 根本 在 于 工具 。 优 秀 的 数据 分 析 师 懂 
得 如 何 使 用 各 种 工具 调整 数据 ， 以 便 解 决 现实 问题 。 对 于 自己 是 否 够 理 
性 ， 没 有 必要 听天由命 。 学 习 工 上 共 ， 灵 活 地 使 用 工具 ， 就 能 够 完成 大 量 
高 难度 的 工作 。 


问 : 但是， 数据 分 析 没 法 保证 得 到 所 有 问题 的 正确 答案 。 





答 : 是 的 ， 没 办 法 保证 ， 要 是 你 不 小 心 忘记 了 这 一 点 的 话 ， 就 会 


出 差错 。 分 析 存 在 于 现实 与 模型 之 间 的 预期 ”差距 是 数据 分 析 的 一 个 重 
要 和 内容， 后 面 几 章 将 讨论 控制 误 关 的 精湛 技术 。 


问 : ” 所以， 虽然 启 发 法 在 我 的 大 脑 里 根深 蒂 固 ， 但 我 也 可 以 形成 
自己 的 想法 ? 


答 : ”一 点 儿 也 不 错 。 对 于 数据 分 析 师 来 说 ， 真 正 重要 的 一 点 是 : 
明白 这 种 现象 会 发 生 在 自己 映 上 。 为 此 我 们 来 试 一 下 .….… 


使 用 快 竹本 


下 边 是 一 种 启发 法 ， 描 述 了 处 理 有 垃圾 需要 废弃 这 个 问题 的 不 同方 
式 ， 规 则 很 简单 : 如 果 劳 边 有 世 圾 箱 ， 惑 把 垃圾 扔 进 垃 圾 箱 ， 人 否则 ， 惑 
等 找到 垃圾 箱 后 再 扔 。 


我 要 处 理 食品 包装 袋 。 
附近 有 垃圾 箱 吗 ? 


人 在、 


Dy 





古 : 







将 包装 袋 扔 进 将 包装 袋 放 进口 袋 ， 
垃圾 箱 。 然后 去 别处 。 


/ 


现在 有 垃圾 箱 
了 吗 ? 


问 
7 


将 包装 袋 扔 进 
垃圾 箱 。 


这 种 擂 述 局 友 法 的 图 形 被 称 为 快 省 树 ”， 快 是 指 完 成 这 个 过 程 弗 时 
不 多 ， 省 是 指 不 需要 大 量 认 知 资源 。 
市 议会 所 需要 的 古 能 够 估算 吕 遇 集 工作 质量 的 局 发 法 。 他 们 现在 的 


尼 发 法 不 可 行 《我 们 必须 说 服 他 们 相信 这 一 点 ) ， 同 时 他 们 拒绝 接受 遵 
远 集 现在 用 的 局 发 法 。 











机 


全 


BV 吗 ? 


继续 资助 哆 过 集 





你 能 国 一 文 快 省 树 表示 一 种 更 好 的 局 发 法 吗 ? 让 我 们 和 道 歇 集 谈 
谈 ， 看 看 他 们 对 更 可 徘 的 决策 过 程 有 何 想 法 。 


CC 
R$ ri 
Kn 念 改 善 了 吗 
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77 
继续 资助 六 过 集 停 上 筑 助 省 过 集 











是 售 有 更 简单 的 方法 评估 遗 遇 集 的 成 耽 ? 


使 用 局 友 法 计量 道 允 集 的 工作 指 的 是 在 下 面 这 些 变 量 中 选取 一 个 或 
多 个 进行 分 析 。 遗 过 集 总 监 认为 哪 种 方法 最 好 ? 
用 哗 出 喜 重 进行 少 析 各 各 昌 全 
/一 本 二 挡 未 战 遂 全 本 钾 效 ? 
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和 纶 水 能 灸 验 公 站 现 尖 调查 | 还 二 ， 正 由 穆 马 说 讲 诗 诅 ， 并 
写 得 做 判 思 了 进 答 吉 厅 忆 式 而 订 量 所 有 凡 垃 乱 撞 纪 . 

冀 面 ， 隐 许可 局 抽 刺 疝 性 垃 媳 注 理 工 。 香 缠 且 问题 是 诺 严 
重 的 癌 题 ， 温 乓 六 们 定期 调查 清关 工 和 总 捍 工 ， 辣 问 伍 们 
活 玉 了 条 少 关中 基 ， 豆 能 常 担 耕 烟 乐 的 丑 滨 ， 昌 又 全 面 ， 


保 记 当 可 党 . 













动 动笔 


一 文 快 省 树 描述 市 议会 该 怎样 评估 遗 坎 集 的 成 加 ， 但 一 定 要 加 入 


遵 遇 集 认为 重要 的 两 个 变量 。 
最 终 的 裁决 将 是 : 是 否 继续 资助 喧 遇 集 。 


动 动笔 解答 


你 创建 了 哪 种 启发 法 评 佑 遵 遇 集 的 工作 成 就 ? 


尽 芒 你 自己 旺 快 省 村 可 能 俏 疡 涵 同 ， 便 
法 不 实例 必 许 就 是 你 要 鹏 下 吕 


前 殉 ， 市 斌 会 党 要 访问 公众 
对 肖 净 焦 除 反 疙 是 否 部 机 


汇源 集 有 省 有 促 伍 信 名 


更 和 朴 记 制止 澳 超 拉 诅 ? 
SS 此 时 2 fi > 您 意志 -a 未 报 


站 其 缆 久 糙 取 这 从 
忆 果 公 衣 持 支 持 坊 总 人 和 We 
加 体式 搜 济 想 工 也 加 培 衣 量 
减 心 了 邑 ? dn 取消 资助 
威 小 了 
人 、 外 们 用 计 本 展 性 邓 全 站 
7 ~« 识 济 量 培 赴 鲁 岗 做 法 . 
继续 资助 取消 资助 


(aati 
法 未 县 访 通 系 扑 机 询 结 来 ， 没有 站 宗 ， 训 取消 次 遇 ， 


v7 









听 说 你 们 在 重新 写 报告 ， 我 可 等 着 看 啊 。 
未 这 我 项 望 你 们 能 像 所 有 其 他 浪 赢 审 机 
构 履 样 洽 数据 部 来 钱 …… 一 部 没 用 的 东 
西 。 







pd 
tn 员 


看 来 至 少 有 一 位 市 议员 已 经 拿 定 了 主意 ”， 混 皇 ， 这 家 伙 完 全 错 看 
了 遂 遇 集 。 


动 动笔 


这 位 市 议员 正在 使 用 局 发 法 。 画 一 张 图 描述 他 的 思考 过 程 ， 体 现 他 
对 遵 远 集 的 预期 ”。 要 是 你 想 说 服 这 家 伙 相 信 你 的 启发 式 评估 设想 
行 之 有 效 ， 就 得 理解 他 的 推理 方式 。 





想 想 这 位 不 开心 的 市 议员 如 何 形成 自己 的 预期 ? 


条 内 和 何 谍 决 道 通 
So 全 经 验 ， 计 他 
表 孝 几何? 
其 他 不 闽 利 所 构 是 
没 困 脑 东 喇 。 
看 未 他 已 过 对 江 调 集 报 本 a 
级 具 趣 -其 他 方面 的 经 一 “、、、 ， 委 通 入 天 设 用 的 


验 洁 成 了 这 祥 网 及 应 ， 本 面 。 


回 定 模式 部 有 具有 局 发 性 


固定 模式 必定 具有 局 发 性 : 处 理 固 定 模式 不 需要 大 费力 气 ， 而 且 速 
度 超 快 。 嘿 ， 有 了 固定 模式 ， 甚 至 都 不 用 为 正在 判断 的 事情 搜集 数据 。 
使 用 局 发 法 时 ， 固 定 模 式 行 之 有 效 ”; 但 在 本 例 以 及 大 多 数 情 况 下 ， 固 
定 模 式 会 导致 做 出 欠缺 推理 的 结论 。 


局 发 法 并 非 百 试 不 爽 。 快 而 省 的 经 验 可 能 有 助 于 找 出 茶 些 问题 的 答 
案 ， 而 在 其 他 情况 下 ， 却 先入 为 主 地 让 你 做 出 不 恰当 的 判断 。 


我 如 何 裁决 
递 远 集 ” 


| 


刺探 性 地 
问 一 些 问题 。 





元 决 六 肖 焦 网 更 归 | 
和 
不 法 大 数 如 此 : 他 们 的 回答 


感人 至 深 吗 ? 


述 珊 集 很 出 色 . 喧 晕 集 很 无 能 。 


局 发 法 有 可 能 危险 至 极 ! 













也许 我 们 可 尺 收 集 一 些 丙 据说 天 妹 卫 工人 对 数 乱 培 杠 衣 
看 泪 ， 热 后 就 可 以 把 我 们 原来 前 分 析 这 同 决 荣 启 发 法 和 
新 数据 一 址 报告 给 市 社会 . 


» 过 


让 我 们 听 听 环卫 工人 的 说 法 .……. 


分 析 完 侍 ， 准 备 提 区 


启发 法 ， 手 头 数据 ， 再 加 上 环卫 工人 刚刚 给 你 的 这 段 答复 : 可 以 准 
备 问 市 议会 解释 你 的 观点 了 。 


这 是 你 对 市 议会 鸡 史 河 评估 
并 淄 体 工作 的 模 疡 ， 
公众 不 乱 折 垃圾 的 
章 识 提高 了 吗 ? 


Sr 4 ge 


固 导 垃 十 请 理工 认为 取消 资助 
垃圾 是 减 小 了 吗 ? 


人 去 二 遇 多 砍 时 笋 我 拉 谍 
全 认同 里 
和 
i 





















| 和 Y 才 人 Eh 











流 总 一 些 新 烧 据 ， 误 阅 了 自从 CO 
长 | 再 二 一 全 代 其 
涛 强 拘 讶 灿 洁 站 来， 凑 卫 工人 ee -一 一 一 
WR 园 第 = ee DORE 本 
寺 雪 所 天 市 前 盘 乱 培 赴 的 印 宗 。“、、 sy a 
评 东 汪 疝 并 机 pp 































一 “天 开工 人 问 首 rs | 和 
六 计 友 证 寺 妨 工 站 及 大 ， 拒 注 到 各 魏 堪 提 让 六 隙 贡 二 沁 人 沁 全 | 56 
EE | 
二 水 这 区 客 并 红 工作 以 来， 入 基石 你 胸 并 考 如 县 党 小 了 我 们 无 法 侈 到 个 识字 和 去 年 觅 
rp 一 数字 讲 行 比 毁 ， 因 为 声 科 列 乔 局 
po | 二 了 ， s » 
车 | 人 EEE 过 匆 娄 这 个 雪夫 ， 上 日 哆 是 号 报告 。 


| 时 RT DE 
志 中 移 雪 穿 代 未 回答 
“是 ” 注 人 明 百 仿 艇 ， 


回答 下 列 问 题 ， 这 是 市 议会 针对 你 对 冰 遇 集 的 分 析 提 出 的 问题 。 
为 什么 你 不 能 直接 计量 垃圾 量 ? 


CE 


你 能 证 明 间 允 集 的 活动 有 效果 吗 ? 


EE 


你 能 保证 你 的 集 略 持 续 有 效 吗 ? 


为 什么 不 花 钱 打扫 ， 而 是 花 钱 说 教 ? 


CE 


你 们 这 帮 家 伙 和 其 他 人 一 样 没 用 。 





你 是 如 何 答复 市 议会 的 ? 
为 什么 你 不 能 直接 计量 垃圾 量 ? 








你 能 证 明 遗 遇 集 的 活动 有 效果 吗 ”? 












嗯 .看 来 你 的 确 知道 
自己 在 说 些 什么 ， 





你 能 保证 你 的 策略 持续 有 效 吗 ? 








为 什么 不 花 钱 打扫 ， 而 是 花 钱 摘 教 育 ? 





你 们 这 帮 家 伙 和 其 他 人 一 样 没 用 。 





看 来 你 的 分 析 打 动 了 市 议会 的 议员 们 


备 契 录 
回复 : 遂 歇 集 及 数据 邦 的 乱 扔 垃圾 问题 


市 议会 很 高 兴 与 冰 遇 集 续 答 合同， 这 得 归功 于 Head First 数 据 分 析 师 
的 出 色 分 析 。 我 们 认识 到 ， 先 前 对 遵 坎 集 的 工作 评 佑 中， 没有 充分 
全 面 地 考虑 数据 邦 的 乱 扔 垃圾 问题 ， 低 佑 了 公众 观念 和 行为 的 重要 
性 。 你 们 重新 拿 出 的 新 决策 过 程 设 计 得 非常 出 色 ， 和 硕 望 届 遇 集 继续 
坚持 对 目 己 高 标准 严 要 求 ， 今 年 ， 数 据 邦 市 议会 将 增加 对 遗 坎 集 的 
资助 ， 我 们 希望 这 有 助 于 .….… 


















太 咸 谢 您 网 放 副 了 1! 现在 我 们 可 以 侦 太 旬 
注 训 呼吁 识 据 帮 诡 入 们 停止 乱 损 拉 村 。 依 
是 于 通 焦 拘 大 救星 | 






由 于 你 的 分 析 ， 数 据 邦 会 一 直 保 持 干 净 。 
谢谢 你 的 努力 工作 ， 谢 谢 你 能 洞察 分 析 这 些 问 题 ， 为 目 己 能 帮助 数 


据 孝 保持 干净 整洁 感到 自豪 吧 ! 


9 直方 图 
数字 的 形状 










类 时 胸水 部 硅 事 几 都 
息 生 站 这 此， 所 以 襄 
二 这 如 高 ， 











那 乏 怎样 1 重要 塌 工 作 
站 这 岂 进 行 。 要 是 处 灯 儿 能 
党 风景 ， 就 会 明 宫 沾 什么 | 





| 


直方 图 能 说 明 什 么 ? 


数据 的 图 形 表示 ”方法 不 计 其 数 ， 直 方 图 是 其 中 出 类 拔 禁 的 一 种 。 
直方 图 与 柱状 图 有 些 相似 ， 能 迅速 而 有 效 地 汇总 数据 。 接 下 来 你 将 用 这 
种 小 巧 而 实用 的 图 形 量度 数据 的 分 布 、 差 异 、 集 中 ”趋势 等 。 无 论 数 据 
集 多 么 庞大 ， 只 要 男 一 张 下 方 图 ， 束 能 “看 出 ”数据 中 的 奥妙 。 让 我 们 在 
本 间 中 用 一 个 新 闫 、 和 免费 、 无 所 不 能 的 软件 工具 绘制 直方 图 。 








员工 年 度 考评 即将 到 来 
最 近 你 一 直 在 进行 一 些 出 色 的 分 析 项 目 ， 年 度 考评 来 得 正 是 时 候 。 
头头 们 想 了 解 你 对 自己 的 看 法 。 





缆 ， 寻 大 们 ， 这 生 一 
仿 自 我 评估 未 。 











星 巴 仕 分 析 师 自 评 表 | 


熙 谢 信 弓 写 环 公司 目 评 表 ! 这 盆 文 件 对 本 公司 在 常 吾 要 ， 将 有 蕊 于 决定 < 和 
你 在 手包 仕 的 疝 尘 。 


日 期 = 一 
分 析 师 妹 名 二 


请 出 本 自己 的 能 力 发 展 水 平 ， 转 出 代表 该 水 平 的 相应 数字 ， 祝 分 低 说 明 
您 认为 自己 需要 帮助 ， 得 分 高 说 明 您 认为 自己 工作 出 色 。 


分 析 工 作 的 性 体 度 是， 


| 2 



































匈 乔 过 乍 学 件 的 总 广 和 各 妥 性 的 能 力 。 
| 2 
各 敢 打 周 ， 体 现在 的 查 


分 节 完 出 在 学 第 ?7 章 揭 时 
伏击 乞 了 。 


理 荣 地 判 新 术 岂 的 能 力 ， 
] 
节 面 和 马 关 交际 非 力 ， 


保持 客 岂 信息 物 过 改作 二 适当 选 泽 的 能 力 : 
| 2 3 +4 3 









你 的 工作 无 可 挑剔 。 
你 值得 嘉奖 。 


不 是 口头 的 ， 而 是 Si 再 来 点 别 的 ， 真正 处 襄 4 。 只? 该 怎 
么 实 实在 在 地 弄 到 手 呢 ? 4 嘉奖 。 哪 种 昵 ? 该 怎 


动 动笔 
最 好 动 动脑 筋 想 想 办 法 ， 争 取得 到 嘉奖 。 写 一 写 该 怎么 回答 这 些 问 
题 。 


该 对 老板 感激 沸 零 ， 然 后 等 着 好 事 上 1]? 只 要 老板 认为 你 有 价值 ， 
束 会 奖励 你 ， 对 吗 ? 








该 给 目 己 绝对 正面 的 评定 ， 也 许 还 要 吹 嘎 吹 咕 自己 的 才干 ?然后 要 
求 大 幅 加 新 ? 





你 能 否 设想 一 个 数字 化 的 方法 来 应 付 这 种 情况 ? 












我 们 太 访 加 薪 了 。 但 
怎么 才能 让 老 极 苍 手 
给 我 们 加 呢 ? 





不 管 你 怎么 回答 上 一 页 的 问题 。 ， 我 们 都 认为 你 该 要 求 加 薪 。 
竟 ， 工 作 这 么 卖力 不 是 为 了 锻炼 身体 。 


伸手 要 钱 形式 多 样 


人 们 在 试图 要 求 老板 加 薪 时 会 变 得 浮躁 ， 这 也 难怪 啊 ! 结果 各 种 各 
样 ， 但 并 不 都 是 好 结果 。 








自前 储 对 走 被 胃 夺 A 
法 或 做 法 一 无 所 反 . 


进行 研究 有 助 于 预测 结果 吗 ? 


即使 你 觉得 自己 的 情况 与 众 不同， 了 解 老 板 的 基准 期 望 可 能 仍然 不 
失 其 意义 。 


这 是 历年 加 薪 记 录 
由 于 你 潜心 研究 星 巴 仕 数 据 ， 因 此 得 以 一 宕 内 幕 : 人 力 资源 部 过 去 
三 年 加 薪 记录 。 
拉锯 米 下 载 / 
举 


www,headfirstiabs. combooks/hfda 
hfos ch09 employees.csv 


公司 加 新 情况 ， 





a 本 
谎话 次 中 鹏 郑 一 行 
代 素 茶 个 人 在 驻 定 
年 从中 苍 吉 菜 情 况 . 






这 一 列 宰 出 职员 改制 …… 
你 大 如 ， 性 别 和 各 薪 前 应 
-一 一 


这 是 这 本 人 蝎 
加 新 糖度 ，n: 
(站 


gp 






这 一 两 苯 出 这 个 人 天 本 抽出 
注 如 新 要 求 ， 惑 者 说 进行 
过 加 闵 谈判。 了 RR 以 2 条 反 机 
这，3H2SZ 素 示 广 次 这 ， 





* 






全 


这 些 数 据 可 能 有 屿 
于 你 往 清 英 对 加 藉 
幅度 六 合 强 期 将 . 


你 可 能 能 够 从 这 些 数 据 中 刺探 到 一 些 非常 可 徘 的 信息 。 假 设 老板 的 
做 法 与 前 几 任 老板 的 做 法 相似 ， 这 些 数据 就 能 让 你 知道 该 对 加 薪 有 何 期 
了 盼 。 





问题 是 ， 员 工人 数 和 将 近 3000， 这 可 是 一 
组 相当 庞大 的 数据 。 


你 得 显 显 身手 ， 发 挥 数 据 的 作用 。 





动 动脑 


你 会 怎么 利用 这 些 数据 呢 ? 能 想 出 办 法 充分 发 挥 这 些 数据 的 作用 


小 公心 \ 


吗 ? 





吉姆 : ”我 们 应 该 把 这 些 数字 所 掉 ， 尽 量 多 和 争取。 数字 不 会 让 
我 们 知道 别人 认为 我 们 配 得 多 少 工资 。 老 板 心里 有 一 个 数字 范围 ， 
我 们 要 想 办 法 争取 上 限 值 。 


讲 : ”我 同意 大 部 分 数字 都 对 我 们 没 用 ， 不 会 让 我 们 知道 别人 
认为 我 们 配 得 多 少 工资 。 我 也 不 知道 该 怎么 措 清 这 一 点 。 数 字 会 让 
我 们 知道 平均 值 ， 要 求 平 均 水 平 准 没 错 。 

a 平均 水 平 ? 你 准 是 在 开 玩 突 ， 干 呆 想 着 中 等 ? 目标 定 
局 所 ! 

弗 兰 殉 ;我 想 应 该 更 细致 地 分 析 分 析 ， 我 们 的 信息 很 充分 ， 
谁 知 道 这些 数 据 会 告诉 我 们 什么 呢 ? 

乔 : 我 们 必须 保险 点 ， 要 随 大 流 。 中 等 水 平 很 保险 ， 只 要 求 
出 加 薪 列 的 平均 值 ， 然 后 要 求 加 这 么 多 就 行 了 。 

吉姆 真是 缩 头马 怨 ! 

弗兰克 : 看， 数据 表明 职员 是 否 提 出 过 加 新、 加 薪 年 份 、 职 
员 性 别 。 这 些 数据 对 我 们 很 有 用 ， 我 们 只 要 把 数据 调整 成 合适 的 格 
式 就 行 。 

吉姆 : 好 吧 ， 高 手 ， 说 来 听 听 。 

弗 兰 殉 : 没 问 题 。 首 先 ， 我 们 得 想 办 法 把 这 些 数字 整理 成 更 














最 好 汇总 一 下 数据 ”。 数 据 太 多 则 很 难 一 口气 看 完 、 看 履 ， 除 非 先 
进行 汇总 ， 否 则 无 法 彻底 领悟 数据 的 意义 。 


先 从 将 数据 分 解 成 基本 数据 块 着 手 ， 有 了 这 些 数据 块 ， 束 能 观 妈 平 
均值 或 其 他 你 认为 有 用 的 汇总 统计 值 。 


该 从 哪里 着 手 汇 总 这 些 数据 呢 ? 
动 动笔 
如 你 所 知 ， 许 多 分 析 工 作 都 包括 提取 信息 、 将 数据 分 解 成 易于 管理 


的 较 小 数据 块 这 样 的 过 程 。 
画 一 张 图 ， 说 明 如 何 将 这 些 数据 分 解 成 更 小 的 数据 块 。 


在 这 沁 画 一 莉 图 ， 说 中 
如何 将 这 些 数 据 亿 和 解 成 、 
/里 收 的 就 据 块 . 


( 


wo Ww 
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可 以 用 哪 种 统计 值 来 汇总 这 些 因素 ? 设计 几 张 表格 ， 将 数据 和 汇总 
统计 值 整合 在 一 起 。 


你 会 把 数据 分 成 哪 几 种 数据 块 ? 


这 里 有 一 些 仙台 … 
你 自己 赐 答 章 可 能 
与 此 石 有 区 出. 

你 可 以 将 备 列 欢 据 今 

角 艇 广 泌 数 亡 块 *… 


ENON 
La 


… 还 可 以 拒 这 此 数据 决 与 反 其 他 
风 分 本 出 未 的 二 头 和 合 在 天。 


Ce gc 


TRUE 
TRUE 
TRUE 
TRUE 
TRUE 
TRUE 
TRUE 
TRUE 
TRJE 
TRUE 
TRUE 
TRUE 
TRUE 
TRUE 
TRUE 
TRUE 
TRUE 
TRUE 
TRUE 
TRUE 
TRUE 
TRUE 
TROE 
TRUE 
TRUE 





缀 斐 询 玉 其 了 生动 硬 茵 
总 及 哆 已 更 次 数 ， 
这 时 在 所 种 兴起 ， 吊 许可 世相 闪 将 数 失 休 融 地 持 祖 订 ， 
志和 江 友 绿 计 第 此 合 安 一 相 。 


这 个 厌 档 显示 了 男性 和 和 Re 
二 性 拘 乎 雹 加 薪 柱 灰 。 “ 34 和 %、 





(Oe 
时效 画册 来- 







想象 汇总 这 此 数据 块 明 
站 潭 常 有 趣 ， 不 过 想象 







就 是 把 寄 ， 动 手 做 起 过 
会 怎么 拌 呢 # 






按照 想象 中 的 数据 组 的 样子 ， 准 备 动手 ， 开 始 汇总 。 

在 需要 分 割 、 汇 总 复杂 的 数据 集 时 ， 你 会 想 用 最 优秀 的 软件 工具 完 
0 
日 吧 。 

一 试 身手 

画 一 张 图 体现 获得 各 种 加 薪 幅 度 的 人 数 ， 这 样 束 能 一 目 了 然 地 观察 

整个 数据 集 。 


所 以 ， 让 我 们 创建 一 个 汇总 .……. 或 者 ， 更 好 的 做 法 是 ， 让 我 们 用 图 
形 方 式 创建 一 个 汇总 。 


打开 Data Analysis〈 数 据 分 析 ) 对 话 框 。 








在 Sweet 中 打开 数据 ， 弟 未 
Dnin 【所 褒 ) 祝 往 下 起 ats 
neiyvis { 庚 撕 分 牢 ) 控 程 . 


好 罕 头 到 masa Hnaiymy 
{ 数 操 售 折 ) 技 狼 ， 庄 
条 者 铀 录 己 蚀 有 全 鉴 


在 OQpenOffice 和 较 旧 的 Excel 版 本 中 ， 可 以 在 Tools (工具 ) 沫 单 下 
查看 Data Analysis (数据 分 析 〉 按钮 。 


在 这 几 ! 
“ni 


1 
这 | 田 " 鱼 " 数 … 
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园 ”选择 直方 图 。 


在 璋 出 类 窗口 中 ， 告 诉 2xcet 
你 想 创 建 一 个 直方 图 . 







选择 数据 。 


将 wceived (实际 加 幕 ) 列 
下 的 数据 全 部 选 由 


忠实 选取 这 个 好 项 种 ， 这 
拌 Ezcal 才 请 料 作 图 铸 ， 





| [WN 
iv TO End 
" MM 


选 持 监 加 苦 数 据 后 ， 会 出 







| 天 

| 对 EN TRUT 视 一 个 大 大 前 起 虹 搬家 8 站 
训 于 TRUE ~ 33. 2950; 3 FALSE F 
-2 位 议 庶 斤 报 ， 从 上 加 这 291 5 FALE 他 
2 2 2592 5M FALSE F 
*| 四 DM 2 FALSE M 
§ vi 2 4; 4 FALSE 下 
2| 和 及 Be 2 3 a M 
0 下 和 2997 2956: ALSE 于 

3 : , 2997, ,| 
| We 到 下 . 2 
EY 2395 25958; 4 F 
人 ao 2 所 
300 3000;..... 53 二 


创建 图 形 后 结果 如 何 ? 


按 下 OK (确定 ) ， 
分 割 数据 ， 


直方 图 体现 每 组 数据 的 发 生 频 数 


直方 图 是 一 种 功能 强大 的 图 形 ， 无 论 数 据 集 多 庞大 ， 和 直方 图 都 能 
显示 出 数据 点 在 数值 范围 内 的 分 布 情况 。 


例如 ， 你 在 上 一 个 练习 中 想象 过 的 图 形 会 告诉 你 有 多 少 人 得 到 了 
5% 的 加 薪 。 


一 一 二 昌 Exert 次 摘出 竺 素 ， 


也 性 报 当 大师 二 时 息 
着 都 在 中 心间 El 尊 ， 





an ed 
1 :入 让 直 由 全 

eT 

se : 六 站 数 ) 前 党 图 站 赢 订 一 

rt : : 未 欧 确 拒 杂 筷 。 


这 个 直方 图 用 图 形 方式 显示 出 获得 每 种 加 薪 幅 度 的 有 多 少 人 ， 还 简 
要 显示 出 加 薪 分 布 情况 。 


直方 图 


六 = 堪 数 
这 些 区 疗 是 整 


90c 
8#OC 
?00 
600 
SO0 
OC 
300 
300 
DC 

c 





男 一 方面 ，Excel 的 输出 结果 存在 一 些 问题 区间 “或 组 距 ) 采用 
默认 设置 ， 结 果 X 轴 的 数值 杂乱 不 齐 。X 轴 上 代表 各 个 区 间 的 数字 应 为 
整数 ， 相 比 使 用 小 数 ， 这 样 的 图 更 易于 观察 。 


当然 了 ， 你 可 以 调整 一 下 设置 ， 让 这 些 区 间 更 接近 你 最 初 设想 的 数 





据 表 
不 过 ， 即 使 这 个 图 也 有 一 个 严重 的 问题 ， 你 能 指出 来 吗 ? 


直方 网 不 同 区 间 之 间 的 缺口 即 数据 点 之 间 的 缺口 


直方 图 上 的 缺口 意味 着 区 间 与 区 间 之 间 没 有 数据 。 比 如 ， 如 果 没 有 
任何 人 的 加 薪 幅 度 是 5.75% 到 6.25%， 则 图 上 会 出 现 缺 口 。 如 果 直 方 网 上 
看 得 到 缺口 ， 可 能 真 的 值得 好 好 调查 。 


实际 上 ， 如 有 果 区 间 比 数据 点 多 ， 直 方 图 上 免不了 出 现 缺口 “除非 数 
据 集 是 反复 出 现 的 相同 数字 ) 。 











直方 图 细 市 





这 个 雇 口 是 否 琳 示 没 哨 任 何人 网 加 
薪 福 并 处 于 3.3 吧 和 3,8% 之 问 ? 


这 正 是 这 个 缺口 应 该 ”表示 的 确切 含义 ， 起 人 码 在 直方 图 绘制 正 
确 的 时 候 是 这 样 的 。 如 果 你 认为 这 张 直方 图 古 正确 的 ， 并 且 数 值 之 
i 
了 的 直方 图 。 





Excel 函 数 的 问题 是 生成 了 一 些 杂 乱 虚 假 的 区 间 ， 十 分 具有 欺骗 
性 ， 通 过 一 种 技术 手段 可 以 解决 这 些 问 题 (对 于 Excel， 只 要 有 时 间 用 
Microsoft 专 有 编程 语言 编写 代码 ， 几 乎 总 是 能 找到 解雇 问题 的 办 法 ) 。 


不 过 ， 这 已 经 是 第 9 音 ， 你 已 经 解决 了 许多 大 问题 ， 已 经 做 好 准备 
使 用 比 Excel 更 强大 的 软件 工具 处 理 统计 问题 。 


你 所 需要 的 是 名 为 R 的 软件 ， 这 是 一 球 免 费 的 开放 源 程序 ， 可 能 会 
成 为 统计 学 计算 方法 的 未 来 ， 你 就 要 开始 钻研 这 球 软 件 了 ! 











安装 并 运行 R 


请 访问 www.r-project.org ”， 下 载 R 程 序 。 在 身边 找 一 个 镜像 获得 适 
用 于 Windows、 Mac 和 Linux 的 R 程 序 训 ， 这 并 不 困难 。 


华 击 出 下 载 特 接 ， 








注 个 山中 前 光标 汇 烛 指 境 论 示 ， 
可 以 在 训 里 详 入 不 程 沪指 仿 . 





相仿 

尽管 使 用 指令 提示 最 初 会 让 人 多 费 点 儿 脑 筋 ， 它 却 能 让 你 更 快 掌 握 
要 领 。 通 过 和 输入 “Edit《〈 你 的 数据 ) ”指令 ， 总 是 能 成 功 地 把 数据 转 
变 成 电子 表格 风格 的 图 形 。 


将 数据 加 载 到 有 程序 
你 要 用 的 第 一 条 R 指 令 是 : 使 用 source 指 令 尝 试 加 载 《 深 入 浅 出 数 
据 分 析 》 (Head First Data Analysis ) 脚本 。 


站 快 当下 载 ! 


source (“ht-o://waw.headfirstlabs.ccsm/books/hfda/hfda.R’”) 


该 指令 会 将 R 所 需要 的 加 薪 数 据 加 载 到 程序 中 ， 加 载 过 程 需要 连接 
互联 网 。 如 果 想 保存 R 会 话 ， 以 便 在 断 开 互联 网 的 时 候 重 新 访问 Head 
First 数 据 ， 可 以 输入 “save.image()”。 


下 载 好 了 吗 ? 首先 看 看 下 载 内 容 中 的 Employees〈 雇 员 ) 数据 框架 
， 输 入 下 面 这 个 指令 并 按 下 Enter《〈 回 车 ) : 


employees 
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输入 数据 枢 如 疝 名 称 ， 社 
只 显示 这 个 数据 概 架 . 
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指 态 所 回 一 个 列 胡 ， 
其 中 包括 数据 秀 架 
中 胸 所 有 行 。 


上 边 的 输出 结果 就 是 R 对 指令 的 啊 应 。 


练习 


在 R 中 输入 下 面 这 条 指令 ， 生 成 直方 图 : 


这 是 什么 意思 。 


iatienplaoyaessrene vedy UB 


你 觉得 指令 行 中 的 各 个 因子 是 什么 意思 ? 解释 你 的 回答 。 





练习 解答 


你 觉得 这 个 直方 图 指令 是 什么 意思 ? 






hist 告 诉 内 运行 家访 图 品 数 ， 
& 第 二 个 自 变 重 告 诉 只 风 何 分 组 ， 
nist "emplcyeesrreceived, Beak3S 一 2) 
第 一 个 自 灾 量 指 害 要 用 


网 数据 . 


R 创 建 了 美观 的 直方 图 


直方 图 的 柱 体 不 仅 能 够 量度 被 计 量 事物 的 数目 (频数 ”) ， 还 能 体 
现 各 个 区 间 所 代表 的 整个 数据 集 的 百分比 。 





employees5received 的 直方 图 

















售 多 只 器 新 pe | 
焉 朗 朱 5 es 注 写 最 灾 加 薪 怪 凑 . 一 





仔细 观察 曲线 轮廓 ， 很 多 事情 显而易见 : 加 新 幅度 低 于 0 的 人 不 
多 ， 加 薪 幅 度 高 于 229% 的 人 也 不 多 。 


但 图 形 中 央 情况 如 何 呢 ? 
这 幅 图 让 你 得 出 什么 结 


练习 





下 面 这 些 指令 会 让 你 对 手头 的 数据 集 了 解 更 深 ， 还 能 得 知人 们 的 加 
新 分 布 。 请 运行 指令 ， 看 情况 如 何 。 


a i PV) 
讲 君 这 池 指 大 人 黎 了 人 计 么 ~ 


这 两 条 指令 有 何 作用 ? 





仔细 观察 直方 图 。 从 图 上 观察 到 的 结果 与 R 通 过 这 两 个 指令 得 出 的 
结果 相 比 如 何 ? 





练习 解答 


你 刚才 执行 了 一 些 指令 演示 加 新 数据 集 的 汇总 统计 值 。 你 认为 这 些 
指令 有 何 作用 ? 


这 两 条 指令 有 何 作用 ? 





太平 去 情况 上 看 ， 加 蘑 幅 度 
与 平均 值 的 偏差 为 2.432%6 








> sdCempLoyees$received) 
[1] 2.432138 


> Summary(Cemp1oyeesSreceived) 
Min. 1st Qu. Median Mean 3rd Qu. Max . 
-1.800 4.600 5.500 6.028 6.700 25.900 


> 





Summary() 计 算出 人 员 加 薪 
幅度 网 一 些 基 东 汇总 统计 值 。 


仔细 观察 直方 图 。 从 图 上 观察 到 的 结果 与 R 通 过 这 两 个 指令 得 出 的 
结果 相 比 有 何 差别 ? 





employeesSreceived 的 直方 


这 是 中 间 值 ，、 
] 这 是 平 场 值 


右 侧 的 数值 略 


大 于 去 钢 ， 这 
使 平声 从 向 洗 
re 


bd 








这 是 一 个 这 是 两 个 “ 峰 ”， 一 个 极 高 ， 
标准 偏差. 一 个 是 位 于 右 侧 办 小 姓 个 . 





乔 : 。” 如果 直 方 图 是 对 称 的 ， 则 平均 值 和 中 间 值 会 处 于 相同 的 
位 置 一 一 正中 间 。 
弗兰克 : 对。 但 在 这 个 实例 中 ， 右 侧 的 小 峰 将 平均 值 拖 离 大 





峰 的 中 心 ， 而 大 部 分 观察 对 象 都 位 于 这 里 。 
乔 ， 我 在 苦 苦 思 考 这 两 个 峰 ， 它 们 意味 着 什么 呢 ? 
弗兰克 : 。 也 许 我 们 该 重新 看 看 先前 划分 的 数据 块 ， 弄 清楚 这 
些 数据 块 是 否 和 直方 图 有 些 关系 。 
乔 : 好 主意 。 
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先前 想 站 的 数据 组 ,一 一 一 


你 能 否 想 出 办 法 用 先前 划分 的 数据 组 来 解释 直方 图 上 的 两 个 峰 ? 


EE 


EE 


先前 划分 的 数据 组 对 直方 图 上 的 两 个 峰 有 何 影响 ? 











世上 没有 伊 问 题 
问 : ”这 么 说 ， 我 们 似乎 能 灵活 处 理 直 方 图 外 形 。 


答 : ”确实 如 此 。 应 该 把 创建 直方 图 这 一 步骤 本 身 视 为 一 种 解释 ， 
而 不 是 先 于 解释 的 任何 步 又 。 


问 : ”R 用 于 创建 直方 图 的 默认 值 一 般 都 合适 吗 ? 


答 : ”一 般 是 的 。R 努力 寻找 能 够 最 好 地 体现 数据 特点 的 分 区 数目 
和 坐标 ， 但 R 并 不 理解 ”所 绘制 的 数据 的 含义 。 正 如 使 用 汇总 函数 一 
样 ， 快 捷 、 简 便 地 绘制 直方 图 没什么 不 好 的 ， 但 在 根据 观察 结果 做 出 重 
要 结论 之 前 ， 还 需 用 合适 的 方法 使 用 直方 图 〈 并 重新 绘制 直方 图 ) ， 以 
未 记 目 己 的 观 罕 目标 和 分 析 目 标 。 


问 : ”任意 一 个 峰 都 是 “ 铃 形 曲 线 ” 吗 ? 

答 : ”很 好 的 问题 。 通 常 ， 当 我 们 想到 铃 形 曲线 时 ， 指 的 都 是 正 态 
分 布 或 高 斯 分 布 ， 但 还 存在 一 些 其 他 类 型 的 铃 形 分 布 ， 以 及 许多 非 铃 形 
的 分 布 形状 。 

问 : ”那么 正 态 分 布 有 何 重大 意义 ? 

答 : ”只 要 数据 呈正 态 分 布 ， 大 量 高 效 而 简单 的 统计 方法 就 能 派 上 
用 场 ; 大 量 的 自然 数据 和 商业 数据 都 呈现 自然 分 布 的 形状 〈 或 可 以 以 某 
种 方式 进行 “转化 ”为 自然 分 布 的 形状 〉。 

问 : ”我们 的 数据 是 正 态 分 布 吗 ? 
































答 : ”你 所 评估 的 直方 图 肯定 不 是 正 态 分 布 。 只 要 峰 的 数目 超过 一 
个 ， 就 不 能 称 为 铃 形 。 


问 : ”但 数据 中 肯定 有 两 个 貌似 铃 形 的 峰 ! 


答 : ”这 种 形状 必定 有 某 种 意义 。 问 题 是 ， 为 什么 数据 分 布 呈现 这 
种 形状 ? 你 该 怎么 搞 清楚 呢 ? 


问 : ”你 能 不 能 多 画 几 张 直 方 图 描绘 数据 块 的 小 组 成 块 ， 然 后 分 别 
进行 评估 ? 这 样 也 许 能 弄 清楚 为 什么 会 出 现 两 个 峰 。 





答 : 直觉 正确 。 试 试看 ! 
你 能 不 能 分 拆 加 新 数据 ， 使 两 个 峰 分 开 ， 并 解释 存在 这 两 个 峰 的 原 
? 


用 数据 的 子 集 绘制 耳 方 图 


你 可 以 用 整个 数据 集 绘 制 一 张 直方 图 ， 但 也 可 以 把 整个 数据 集 拆 分 
成 几 个 子 集 ， 然 后 绘制 其 他 一 些 直 方 图 。 


整 小 氟 据 寻 记者 答 间 由 要 丽 出 当 小 计 太 
全 着， 这 起 车 下 语 来 前 Falae 【加 蘑 ) 
赴 司 蚁 数 语 锤 估 ， 数位 ， 就 有 本 角 检 
i 绅 吉 神采 同 秘 六 ， 


i \ 
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mR | 
i 1 | 
i et 让 
y 折 江 于 译 求 罕 A 二 着 | 已 吕 性 晴 加 昔 生 由 ;， 无 市 坚 柚 
i | 让 案 还 是 己 志 性 喇 直 黄 江 本 寺 吕 
s。 。 求 a 革 二 人 坑 雁 :都 能 造福 一 器 入 是 。 


让 我 们 创建 一 批 直方 图 描绘 加 薪 数 据 的 子 集 。 也 许 观察 这 些 不 同 于 
原来 的 直方 图 会 帮助 你 搞 清楚 原 直 方 图 上 的 两 个 峰 意味 着 什么 。 是 
舍 有 一 个 群体 的 加 薪 幅 度 高 过 其 他 群体 ? 


1) ”首先 ， 看 看 下 和 面 这 个 直方 图 指令 ， 看 清 语法 。 你 认为 这 个 指 
令 中 的 各 个 因素 有 何 意义 ? 


hist(employees$received[employees$year == 2007], breaks = 
50) 


根据 自己 的 音 解 在 这 几 
号 下 每 个 因素 的 意义 。 


2) ”模仿 上 面 的 指令 ， 逐 一 执行 下 列 指令 。 看 到 什么 了 ? 结果 见 





下 页 ， 请 进行 解释 并 写 下 你 的 解释 。 


hist(employees$received[employees$year == 
50) 

hist(employees$received[employees$gender == 
50) 

hist(employees$received[employees$gender == 
50) 
hist(employees$received[employees$negotiated 
breaks = 50) 
hist(employees$received[employees$negotiated 
breaks = 50) 


强化 练习 


2008] ， 


“F”] 2 


“M”] 7 


breaks 


breaks 


breaks 
FALSE], 


TRUE], 


这 些 直方 图 代表 不 同 职员 群体 的 加 薪 情 况 ， 你 能 从 中 看 出 什么 ? 
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hist(employees$received[employees$year == 2008], breaks = 
50) 
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hist(employees$received[employees$gender == "F"], breaks = 
50) 
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hist(employees$received[employees$gender == "M"], breaks = 
50) 
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hist(employees$received[employees$negotiated == FALSE], 
breaks = 50) 
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Hittogram of ernployoctyrecevedlempicoyeessne0ctiated = F 





hist(employees$received[employees$negotiated == TRUE], 
breaks = 50) 
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加 新 谈判 有 回报 


对 加 薪 数 据 的 不 同 子 集 进 行 耻 方 图 分 析 之 后 ， 看 得 出 获得 大 幅度 加 
新 全 靠 提 要 求 。 


是 否 选 择 提 出 加 薪 〈 即 进行 加 薪 谈 判决 定 了 人 们 的 加 薪 结 果 分 布 
情况 。 只 要 提出 加 薪 要 求 ， 整 个 直方 图 束 问 右 移 。 


不 提 加 薪 要 丽 。 


a 提 加 薪 要 求 ， 


字 \ [L 注 人 加 薪 幅 度 更 高 ， 


不 提要 求 网 人 实 
际 加 新 会 园 少 ， 


要 是 你 对 要 求 加 薪 子 集 做 个 汇总 统计 ， 就 会 发 现 ， 就 像 在 两 条 曲线 
上 观察 到 的 一 样 ， 结 果 十 分 语 有 戏剧 性 。 


早 场 秆 和 中 间 债 在 元 种 
这 是 计 莽 妹 准 偏 玫 着 函数 ， 分 有 收 况 下 几乎 一 致 。 





> sdCemployees$raise. amount [employees$negotiated 一 TRUE]) 
[1] 8.9805234 


> summary(CemployeesSraise_amount[employees$negotiated 一 FALSE]) 
Min. list Qu. Medion Mean 3rd Qu. Max 
0.400 4.300 5.000 5.006 5.700 8.800 

> sd(employeesSroise_amount[employees$snegotiated 一 FALSE]) 

[1] 1.001189 


> 





AN 平 翅 关 来 ， 西 种 分 布展 现下 的 笋 据 
点 都 在 平均 偿 前 1 吗 范 围 以内 、 


坚 无 疑问 ， 你 应 该 谈判 要 求 加 薪 。 


谈判 要 求 加 薪 对 你 意味 着 什么 ? 


ee 哪 种 策略 会 带 来 最 好 的 结果 束 已 经 水 落 
石 出 。 





弘 往 季 咀 要 出 各 薪 可 能 
全 带 未 注 样 鸯 徐 尿 ， 





10 回归 
预测 


我 壮 基数 据 齐 分， 真 浊 所 
室 习 码 测 示 束 、 苦 么 才 铭 





洞悉 一 切 ， 未 下 先知 。 


回归 分 析 法 力 无 边 ， 只 要 使 用 得 法 ， 就 能 帮助 你 预测 茶 些 结果 值 。 
知 与 控制 实验 同时 使 用 ， 回 归 分 析 还 能 预测 未 来 。 商 家 狂热 地 运用 回归 
分 析 帮 助 目 己 建 立 模 型 ， 预 测 客 己 行为。 本章 即将 让 你 看 到 ， 明 智 地 使 
用 回归 分 析 ， 确 实 能 够 带 来 巨大 效益 。 





你 打算 怎么 化 这 些 钱 ? 


你 的 加 薪 要 求 才 效 了 。 你 从 直方 图 上 看 出 ， 选 择 要 求 加 薪 的 人 旦 
天 仙 外 地 得 到 了 更 高 的 收入 于 是 ， 当 走 进 者 极 的 办 公 室 时 ， 你 陶 有 成 
行 和 结果 奏效 了 ! 


下 边 是 你 在 前 一 章 的 练习 中 看 到 过 的 直方 图 ， 不 过 重新 画 了 一 过 ， 
以 便 两 张 图 的 坐标 和 区 间 大 小 都 相同 。 














未 总 要 并 加 节 赤 的 加 续 纳 果 











尊 要 求 加 束 吉 的 加 薪 结 染 








干 得 好 ! 
现在 还 没 到 收 手 的 时 候 。 


你 发 现 了 如 何 得 到 更 高 薪 的 秘密 ， 这 是 大 家 的 福音 。 同 事 中 几乎 没 
0 
由 


你 应 该 做 专门 葵 别 人 争取 加 薪 的 生意 ! 


动 动笔 





这 里 有 几 个 问题 ， 根 据 这 几 个 问题 ， 想 想 如 何 依托 数据 分 析 创 建 一 
家 商号 ， 经 营 你 在 加 薪 谈 判 方面 的 经 验 。 


奉 有 一 家 帮助 客户 分 析 加 薪 谈 判 的 商号 ， 你 觉得 客户 会 期 望 这 家 商 
号 提供 哪些 业务 ? 


如 果 你 在 经 营 这 一 行 生 意 ， 用 哪 种 办 法 回报 你 的 知识 可 谓 公正 ? 


在 有 一 家 帮助 客户 分 析 加 新 谈判 的 商号 ， 你 党 得 客户 会 期 望 这 家 商 
号 提供 哪些 业务 ? 





你 注 客 户 沉 要 你 订 尾 捷 清 车 
可 性 提 凡 唱 秩 加 蘑菇 求 ， 


\ 
SS 





ye I 
沉 洱 效率 户 向 者 板 认 出 各 莘 脸 。 党 如 


会 俗 求 -一 定 水 平 凤 如 靖 亿 区 加 站 。 洲 
x : 水 ee 





以 获取 大 幅度 加 薪 为 目的 进行 分 析 


ne 
H。 






我 直道 说 四 


何 下 手 ， 


访 护 加 痒 ， 僵 咎 拓 
遂 斌 筷 如 提出 来。 





动 动脑 


你 需要 制定 服务 框架 ， 明 确 目 标 。 你 的 产品 会 是 什么 样子 ? 


稍 等 片刻 .……. 加 薪 计算 器 ! 
人 们 想 知道 该 怎么 提要 求 ， 还 想 知道 所 了 以 后 能 到 手 多 少 。 
你 需要 一 种 算法 。 





eT 
下 4 本 秆 过， 


现在 你 已 经 万 事 俱 备 ， 可 以 创建 一 个 决策 流程 帮助 人 们 获取 满意 的 
[新 。 


术语 角 





算法 ”为 了 完成 条 个 计算 而 执行 的 任何 过 程 。 在 本 例 中 ， 你 将 在 
算法 中 加 入 计算 依据 一 一 要 求 加 薪 幅 度 ， 然 后 通过 一 些 步骤 预测 实 
际 加 薪 幅 度 。 这 些 步 又 都 有 哪些 呢 ? 


这 个 算法 有 何 玄机 ? 


画 一 张 这 样 的 靓 图 真是 好 极 了 ， 不 过 ， 为 了 让 人 们 掏 钱 ， 同 时 ， 重 
要 的 是 为 了 让 目 己 有 一 些 绝 活 ， 你 接 下 来 必须 进行 严肃 的 分 析 。 











既然 如 此 ， 你 党 得 这 个 算法 有 何 玄 机 ? 


这 个 算法 的 玄机 在 于 预测 加 新 幅度 
预测 是 数据 分 析 的 重头 戏 。 
有 些 人 会 认为 ， 总 的 说 来 ， 把 假设 检验 和 预测 加 起 来 就 等 于 数据 


全 


分 析 


-> 省 心 铀 案 尖 们 | 


. 


间 





马上 就 委 ! 





要 所 


可 能 需要 预测 的 问题 : 
时 人 们 的 措施 

四 市场 动态 

@ “重大 事件 

四 ”实验 结果 

四 数据 中 未 体现 的 资料 
不 能 不 问 的 问题 : 





四 ”我 有 足够 的 数据 进行 预测 吗 ? 

@ ”我 的 预测 准确 性 如 何 ? 

@@ 是 定性 预测 还 是 定量 预测 ? 

四 我 的 客户 能 顺利 利用 这 个 预测 吗 ? 
四 我 的 预测 有 何 局 限 性 ? 


让 我 们 观察 部 分 数据 ”， 看 看 要 求 加 薪 的 人 都 提 些 什么 。 你 能 针对 
各 种 加 薪 要 求 预测 加 新 结果 吗 ? 


动 动笔 





下 面 的 直方 图 体现 了 曾 要 求 加 薪 者 的 实际 加 薪 幅 度 ， 以 及 他 们 曾经 
要 求 过 的 加 新 幅度 。 


从 直方 图 中 能 看 出 怎么 做 才能 得 到 大 幅度 加 攻 吗 ?说 一 说 如 何 对 两 
个 直方 图 进行 比较 才能 揭示 两 种 变量 之 间 的 关系 ， 以 便 有 可 能 预测 
提出 加 薪 要 求 后 高 来 的 加 新 结果 。 





费 至 求 加 酚 才 的 加 酚 至 求 区 


一 、 
1 


出 尉 求 加 车 者 的 加 舍 结 采 


} 
本 这 新 划 搓 ， 
下 一 而 桨 人 
用 这 我 夯 。 


| 
注 是 浊 谷 开 这 秽 
盟 ， 改 了 岁 和 项 . 











到 大 幅度 加 薪 


到 
dn 


从 以 下 两 张 直方 图 中 能 看 出 该 怎么 提 加 薪 要 求 才 外 
吗 ? 














| 管 要 求 加 翡 吉 的 加 新 玛 求 ~、 曾 必 求 加 新 者 和 仪 加 颖 坪 染 
3 ] 从 


要 束 高 却 可 然 如 新 餐 ， 











一 也 本 能 是 芒 介 关系 一 一 册 于 设 洁 将 “要 否 " 和 和 一 
实际 ” 雪 据 莽 在 一 起 .县 体 鸽 咒 无 成 得 如 
世上 没有 傻 问题 


问 :， 不 能 直接 把 两 张 直方 图 县 加 在 一 个 坐标 中 吗 ? 


答 : ”完全 可 以 。 但 为 了 进行 清晰 的 比较 ， 两 张 直方 图 都 要 体现 相 
同 的 内 容 。 例 如 ， 在 上 一 章 中 用 多 个 数据 子 集 绘 制 了 大 量 直 方 图 ， 用 
这 些 直方 图 进行 相互 比较 即 可 。 





问 : ”可 实际 加 薪 幅 度 和 要 求 加 薪 幅 度 确实 非常 相似 ， 对 吗 ? 


答 : ”当然 了 ， 在 计量 方法 上 很 相似 都 用 的 是 薪水 的 百分数 。 但 
你 并 不 是 特别 想 知道 每 种 变量 的 分 布 情况 ， 而 是 想 知 道 对 于 个 体 来 说 一 
个 变量 与 为 一 个 变量 的 关系 。 


问 : ”明白 了 。 既 然 如 此 ， 如 果 得 到 了 这 些 信息 ， 我 们 该 怎么 利用 
呢 ? 


答 : ， 间 得 好 。 是 应 该 关注 最 终 分 析 结果 ， 那 是 你 的 智慧 产品 ， 
以 卖 钱 。 你 需要 什么 ? 产品 将 是 什么 样子 ? 但 首先 ， 你 需要 用 图 形 比 
这 两 个 变量 。 


浊 a 


歼 反 图 数据 点 





还 记得 第 4 章 的 散 点 图 吗 ? 这 是 一 种 将 不 同 变 量 放 在 一 起 进行 比较 
0 


你 将 需要 用 其 他 数据 点 绘制 刻度 和 坐标 轴 。 





鲍 勃 要 求 加 5%， 得 到 了 59%6。 
芳 妮 要 求 加 10%， 得 到 了 8%。 
朱 莉 娅 要 求 加 2%， 得 到 了 109%。 





曙 这 时 的 人 3 一 
由 黄 涂 币 外 下 、 
“、、  __ 荣 紫 ， 示 者 下 
的 些 抒 ， 


获 扣 图 数据 后 








你 刚刚 将 鲍 艺 、 方 妮 、 朱 者 嫩 的 情况 画 在 了 坐标 中 ， 形 成 了 散 点 
。 看 出 什么 了 ? 


鲍 勃 要 求 加 5%， 得 到 了 59%6。 
芳 妮 要 求 加 10%， 得 到 了 8%。 
朱 莉 娅 要 求 加 2%， 得 到 了 109%。 





回避 


世上 没有 伊 问 题 
问 : 我 什么 时 候 能 使 用 散 点 图 ? 


答 : ”尽量 多 用 ， 这 是 一 种 从 多 方面 展现 数据 特点 的 快捷 办 法 。 只 
要 你 的 数据 涉及 两 种 变量 ， 束 该 考虑 使 用 散 点 图 。 


问 : ”这 么 说 ,任何 两 种 变量 都 能 同时 放 在 散 点 图 中 ? 
答 : ”只 要 这 两 种 变量 成 对 出 现 并 描述 了 数据 中 隐 伟 的 人 或 事 就 可 


同时 放 在 散 扣 图 中 。 在 本 例 中 ， 数 据 库 中 的 每 一 行 都 代表 一 名 员工 要 求 
加 薪 的 一 种 情况 ， 而 每 位 员工 的 情况 又 包括 实际 加 新 和 要 求 加 薪 两 方 
面 。 








问 : 我 该 以 什么 为 目标 观察 这 些 图 呢 ? 





答 : ”对 于 一 位 分 析 师 来 说 ， 散 点 图 的 根本 在 于 寻找 变量 之 间 的 因 
果 天 系 。 例 如 ， 如 果 要 求 蝇 造成 加 薪 低 ， 束 会 在 散 点 图 中 看 出 这 两 种 变 
量 之 间 的 关系 。 散 反 图 本 映 仅 显 示 出 关系 ”， 要 说 清原 因 还 需要 做 更 多 
事 ( 对 于 初学 者 来 说 ， 还 需要 解释 为 什么 。 一 种 变量 会 决定 为 一 种 变 
量 ) 。 








问 : 要 是 我 想 比 较 三 组 数据 该 怎么 办 ? 


答 : ”你 完全 可 以 在 R 中 创建 图 形 ， 对 两 个 或 两 个 以 上 变量 进行 比 
较 。 在 本 童 中 ， 我 们 将 使 用 两 种 变量 ， 但 你 可 以 通过 三 维 散 点 图 和 多 面 
板 网 格 图 绘制 三 种 变量 。 如 果 你 想 体 验 一 下 多 维 散 点 图 ， 可 复制 并 运行 
一 些 cloud 函 数 的 实例 ， 参 见 help (cloud〉 的 帮助 文件 。 


问 : 那么 我 们 何 时 开始 观察 二 维 散 点 图 上 的 加 薪 数据 ? 


答 : “马上 开始 。 这 里 有 一 些 预 先 编制 好 的 代码 ， 可 以 为 你 发 掘 一 
些 更 新 、 更 具体 的 数据 并 创建 一 张 称 手 的 散 点 图 。 来 吧 ! 





预 编程 代码 


在 R 中 运行 这 些 指令 ， 生 成 一 张 散 点 图 ， 体 现 出 要 求 加 新 和 实际 
加 薪 的 情况 。 


这 从 这 个 哲 科 同和 对 候 一 宣 
嫁 过 在 到 因特网 ， 国 为 于 
皮 同 二 接 训 财气 。 


SE es A ed car LE da pe, AADne weve er 


h i Tre m2 
人 
禾 讼 ， 六 星 示 千 于 ， 


Ea le 3 


Plot dup ld em ove eant iaterd-=TROR ， 


FMI TOV NNR TS Tv Ur Goontb sts=TRUS] 3 


Mg 


这 沾 指 仿 持 星 示 数据 询 





运行 这 些 指令 会 出 现 什么 结果 呢 ? 





用 散 点 图 比较 两 种 变量 
这 张 散 点 图 上 的 每 一 个 点 代表 一 个 独立 的 观察 对 象 : 


和 直方 图 一 样 ， 散 点 图 是 男 一 种 用 于 展现 数据 的 快捷 、 经 典 的 办 
法 ， 它 显示 的 是 数据 分 布 情况 。 但 和 直方 图 不 同 的 是 ， 散 点 图 显示 两 种 
变量 。 散 点 图 显示 出 观察 结果 的 成 对 关系 ， 一 张 好 的 散 点 图 可 以 是 原因 


说 明 的 一 个 组 成 部 分 。 


Ms 








了 各 
Ek 
生长 冉 吕 如 四 .一 
i es y 
I ii r 
rr a 
Pe 
A 人 snl! 
， 和 
国语 
ee 
a 
AI 
a 
配 生 呈 .= 
[1 [9 





于 


当然 可 以 ， 不 过 为 什么 呢 ? 
一 条 贯穿 数据 的 直线 对 你 会 有 什么 用 呢 ? 


国 一 条 呐 


别 态 了 ， 你 正在 设法 建立 一 种 算法 。 


重重 大 而 下 二 二 


乔 重 间 而 和 





特 线 能 为 客户 指明 目标 


一 条 吐 穿 数据 的 二线 的 确 可 能 是 一 种 有 效 的 预测 办 法 ， 再 看 看 我 们 
一 直 在 考虑 的 算法 。 


返 是 最 住 预 测 找 双 ? 
\ 





这 个 中 间 计 算 部 分 可 能 正 是 一 条 直线 。 只 要 画 出 一 条 线 ， 就 可 以 取 
一 个 要 求 值 ， 然 后 在 线 上 找 出 与 实际 值 相对 应 的 点 。 


如 果 这 条 线 是 正确 的 ， 你 就 有 可 能 得 出 算法 中 的 未 知 部 分 。 





动 动笔 


为 了 想 办 法 夯 出 正确 直线 ， 为 什么 不 利用 散 点 图 回答 关于 个 人 加 葛 
幅度 的 一 个 特定 问题 ?实例 如 下 。 


如 果 东 人 提出 加 薪 89%， 结 果 他 可 能 得 到 多 少 ? 看 一 看 ， 通 过 散 扣 


图 是 否 能 看 出 要 求 加 薪 8% 的 人 实际 能 得 到 的 加 薪 ? 


六 


emplovees$reoelved[emolovees$neqa'lated =— TRUE] 


3 10 15 20 


emplcyvessSrequssted[emplioyeesSnegotiateo == TRUE) 


闻 好 戏 罕 这 纺 雇 点 
立 ， 回 答 闷 题 ， 








扫 示 ， 纲 如 私事 加 莱 8% | 
> 


访 范 转向 融 相 总 点 | 


动 动笔 解答 


如 何 利用 散 点 图 确定 要 求 加 薪 8% 有 可 能 得 到 什么 结果 ? 
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如 下 取 8% 范 围 (或 区 间 〉 内 的 各 个 皮 的 实际 加 新 平均 值 ， 则 
结果 约 为 89%。 从 平均 情况 看 ， 要 求 加 新 89%， 则 实际 加 薪 89%。 


这 样 束 解 答 了 一 个 人 群 〈 即 要 求 加 薪 8% 的 人 和 群 ) 的 加 薪 问 
题 。 其 他 人 的 加 薪 要 求 则 不 一 样 。 


如 果 观 察 一 下 整个 X 轴 上 的 各 个 区 间 内 的 实际 加 薪 平 均值 ， 结 
如 何 呢 ? 





使 用 平均 值 图 形 预 测 每 个 区 间 内 的 数值 


平均 值 图 是 一 种 散 点 图 ， 这 种 散 点 图 显示 出 与 X 轴 上 的 每 个 区 间 
相对 应 的 Y 轴 数值 。 这 里 的 平均 值 图 告诉 我 们 提出 各 种 加 薪 幅 度 的 人 的 
平均 得 到 的 加 薪 值 。 


平均 值 图 比 简单 地 求 总 体 平 均值 要 有 效 得 多 ， 正 如 你 所 知 ， 整 体 平 
均 加 薪 幅 度 为 4%， 但 这 张 图 却 更 细腻 地 向 你 显示 出 整体 情况 。 



















老兄 ， 我 的 本 一 第 党 穿 第 一 
张 最 点 加 肯 闪 。 拆 光 基 本 一 
音 贯 穿 平均 使 蜀 萝 疙 ! 





人 
你 已 经 一 不 小 心 男 出 了 这 条 线 。 





真 的 。 男 一 条 线 把 平均 值 图 中 的 点 连 起 来 一 一 这 正 是 你 所 寻找 的 那 
条 线 ， 利 用 它 可 以 预测 每 个 人 的 加 薪 情 况 。 


回归 线 预测 出 人 们 的 实际 加 薪 幅 度 
这 就 是 它 一 -迷人 的 回归 线 。 


回归 线 就 是 最 准确 地 贯穿 平均 值 图 中 的 各 个 点 的 直线 。 你 即将 看 
到 ， 你 不 仅 需要 为 图 形 画 回归 线 。 


回归 线 可 以 用 简单 的 等 式 来 表达 ， 通 过 该 等 式 可 以 预 训 东 个 范围 内 
的 X 变 量 对 应 的 Y 变 量 。 


3 六 和 噩 器 详 
当 这 就 是 回归 线 ， 
0 名 
oso ~ 
= | 5 3 
名 oO me 
0 Dd 2 
OO S° Do 了 
My on 6 je 
© > Be ~»  o y -U0 
人 » 人 
证 > oO > 
3 
o_o y 
[es 和’ Ee 
0 0 a g 




















EmployeesSreceived[employess$negotiatad == TRUE] 





employees$requestedlemployeesSnego'iated == TAUC] 





世上 没有 伊 问题 
问 : 为 什么 叫 回 归 线 ? 


答 : ”发 现 这 个 方法 的 是 英国 科学 家 高 尔 顿 栈 士 (1822-1911) ， 当 
时 他 正在 研究 如 何 通过 父亲 的 身高 预测 儿子 的 身高 。 他 的 数据 显示 ， 从 
平均 情况 看 ， 矮 个 子 的 父 灯会 生出 比 自己 高 的 儿子 ， 而 高 个 子 的 父亲 会 
生出 比 上 自己 矮 的 儿子 。 他 把 这 种 现象 称 为 “ 同 平均 数 回归 ”。 





问 : ” 听 上 去 挺 玄 乎 。 似 乎 回归 这 个 词 更 多 是 在 讲 高 尔 顿 对 父子 身 
高 的 感受 ， 而 不 是 有 关 统 计 问题 。 


答 : 没 错 。 回 归 这 个 词 的 历史 意义 更 其 于 分 析 启 示意 义 。 


问 : ”我 们 一 直 在 根据 加 薪 要 求 预 测 加 薪 结 果 。 能 不 能 从 加 薪 结 果 
预测 加 薪 要 求 呢 ?” 能 不 能 从 Y 轴 预测 X 轴 呢 ? 


答 : ”当然 能 ， 可 如 果 那 样 的 话 ， 你 所 预测 的 就 是 过 去 的 事情 。 如 
果 某 人 告诉 你 她 的 实际 加 薪 幅 上 度 ， 你 就 能 预测 出 她 的 要 求 幅 上 度 。 重 要 的 
是 ， 无 论 研究 什么 ， 都 要 坚持 进行 实际 检查 ， 确 保 能 奶 踩 所 研究 的 对 象 
的 意义 。 预 测 有 意义 吗 ? 











问 : 我 该 用 相同 的 线 从 Y 轴 预测 X 轴 吗 ? 


答 : ” 非 也 。 回归线 有 两 种 ， 已 知 Y 求 X， 已 知 X 求 Y。 想 想 看 ， 平 
均值 图 有 两 种 :每 张 图 代表 两 种 变量 中 的 一 种 变量 的 平均 值 。 


问 : 回归 线 必须 是 直线 吗 ? 











答 : 不 一 定 是 直线 ， 只 要 有 回归 意义 就 行 。 非 线性 回归 是 一 个 更 
为 复杂 的 奇妙 领域 ， 不 在 本 书 讨论 范围 之 内 。 






你 忘记 一 些 事 了 。 你 确定 这 
条 伐 真 的 有 用 吗 ? 我 是 说 ， 
这 条 禾 能 为 你 做 什么 呢 ? 






确保 你 画 的 线 确实 有 用 。 


散 点 图 的 外 观 丰 富 多 彩 ”， 回 归 线 也 是 如 此 ， 问 题 在 于 散 点 图 中 的 
回归 线 有 多 大 用 处 。 


这 里 有 几 张 不 同 的 散 点 图 ， 每 张 散 点 图 中 的 回归 线 的 作用 都 与 其 他 
散 点 图 中 的 回归 线 的 作用 相同 吗 ? 或 是 某 些 回归 线 似 乎 更 有 用 ? 





回归 线 对 于 具有 线性 相关 特点 的 数据 很 有 用 


相关 性 ” 即 两 种 变量 之 间 的 线性 关系 ， 如 有 果 要 呈现 线性 关系 ， 散 点 
图 上 的 点 就 需要 大 致 沿 着 直线 分 布 。 





这 姑 巩 出 思 上 防务 沾 点 宝 全 


让 一文 De 
1 一 赴 中 和 写 | 因此 回 贤 


残 苛 万 法 提供 人 准确 高 补 渤 











相关 性 可 强 可 弱 ， 这 可 以 用 相关 系数 进行 量度 ， 相 关系 数 也 叫做 
r 《可 别 和 大 写 R 搞 混淆 了 ， 那 是 个 软件 程序 ) 。 为 了 让 回归 线 发 挥 作 
用 ， 数 据 必须 显示 出 强烈 的 线性 相关 性 。 

r 的 范围 为 -1 至 1，0 表 示 无 相关 性 ，1 和 -1 表示 两 个 变量 完全 相关 。 


你 手头 的 加 薪 数 据 显示 出 线性 相关 性 了 吗 ? 








预 编程 代码 


试 厦 用 程序 R 计 算 加 薪 数 据 的 相关 系数 r。 输 入 并 执行 下 列 函 数 : 


cor(employees$requested[employees$negotiated==TRUE], 
employees$received[employees$negotiated==TRUE]) 


说 说 函数 中 的 各 个 因子 。 你 觉得 这 些 因子 有 何 意义 ? 


相关 函数 的 输出 结果 与 散 点 图 相符 吗 ? 结果 数值 与 你 所 认为 的 两 个 
变量 之 间 的 关系 相符 吗 ? 


tt 


employeesSreceved[employeessnegolialsd ~-~ TRUE] 











oimployeas$reguesiad[employeas$negoliated == TRIJE] 





预 编程 代码 





你 刚刚 让 R 程 序 给 你 计算 过 两 个 变量 的 相关 系数 。 看 出 什么 了 ? 


-一 全 和 抽 届 是 生 答 难 扯 扫 
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相关 函数 的 输出 结果 与 散 点 图 相符 吗 ? 





相关 性 细 市 


如 何 计算 相关 系数 ? 相关 系数 的 实际 计算 简单 而 乏味 。 
下 面 是 一 个 用 于 计算 相关 系数 的 算法 : 





负 平 专人 种 攀 村 意 食 关 ， 


世上 没有 傻 问题 


问 : ”可 以 看 出 ， 相 关 性 为 1 或 -1 就 有 充足 的 理由 使 用 回归 线 。 但 相 
天 性 低 到 什么 程度 算 太 低 呢 ? 


答 : “只 需 根 据 具体 情况 尽量 作出 最 佳 判断 。 若 使 用 回归 线 ， 则 总 
是 可 以 通过 相关 系数 进行 定性 判断 。 


问 : 可 我 怎么 知道 相关 性 低 到 什么 程度 算 太 低 呢 ? 








答 : ”正如 对 待 一 切 统计 和 数据 分 析 问 题 一 样 ， 想 一 想 回归 是 否 





意义 ”。 任 何 统计 工具 都 不 会 无 往 不 利 ， 但 只 要 娴熟 地 使 用 这 些 工 具 ， 
你 就 会 知道 它们 能 让 你 在 多 大 程度 上 接近 平均 值 。 调 动 你 的 一 切 判 断 能 


力 回 答 这 个 问题 :“ 这 个 相关 系数 够 高 吗 ? 足以 证 实 我 通过 回归 线 得 出 
的 结论 吗 ? ” 


问 : 我 怎样 才能 断定 数据 为 线性 分 布 ? 


答 : ”你 该 知道 ， 有 一 些 特别 的 统计 工具 可 以 用 来 定量 分 析 散 点 图 
的 线性 ， 但 通常 目测 也 是 安全 的 。 


问 : ”如 果 我 展示 出 两 种 事物 之 间 的 线性 关系 ， 是 否 说 明 我 以 科学 
的 方法 证 明了 这 种 关系 ? 


答 : 未必。 你 只 是 指定 了 一 种 在 数学 意义 上 真正 有 用 的 关系 ， 但 
这 种 关系 是 否 男 有 内 情 ” 却 是 男 一 个 问题 。 你 的 数据 质量 确实 好 吗 ? 其 
他 人 是 否 反 复 重 复 了 你 的 结果 ?做 好 解释 现象 的 准备 了 吗 ? 如果 一 切 都 
人 
本 

















问 :” 散 点 图 中 将 放 进 多 少 记录 ? 


答 : “和 直方 图 一 样 ， 散 点 图 是 一 种 分 辩 率 很 高 的 显示 方法 ， 只 要 
0 
天 点 之 一 。 

















好 吧 ， 籽 吧 ， 回 归 线 才 
用 。 未 过 有 一 个 问题 ， 回 
归 线 怎么 用 呢 ? 我 想 精确 
地 计算 特定 加 薪 柱 度 ， 


为 了 进行 精确 预测 ， 你 :省 
到 个 数学 函数 …… 





为 了 进行 精确 预测 ， 你 将 需要 用 到 一 个 数学 函数 


你 需要 用 一 个 等 式 进行 精确 预测 
利用 线性 方程 可 以 对 直线 进行 数学 表述 。 


* 缉 实 台 上 觅 诅 ， 在 赤 斌 中 为 


1 即 区 就 上 抑 值 ， 在 震 例 中 为 y=a+ bx 已 知 购 值 : 要 束 加 新 值 ， 
ot Wy seca tt E A A 
要 预测 次 什 ， 实际 加 薪 傍 SS 大 人 
9 和 \ ~ 
A 2 
sw ae 


你 的 回归 线 可 以 用 这 个 线性 方程 表示 。 只 要 知道 过 去 的 加 薪 数 据 ， 
6 


你 只 需要 求 出 数值 a 和 b， 也 就 是 所 谓 的 系数 即 可 。 


a 代表 Y 轴 截 中 
线性 方程 右边 的 第 一 个 变量 代表 Y 轴 截 距 ， 即 直线 与 Y 轴 的 交点 。 





or 
ep 


这 就 是 ¥ 辕 圾 晶 ， 
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如 果 散 点 图 上 恰好 有 一 些 点 落 在 x=0 范 围 的 周围 ， 就 能 找 出 该 区 间 
的 平均 值 点 。 我 们 没有 这 么 幸运 ， 要 找 出 截 距 您 怕 还 得 多 费 点 儿 脑 筋 。 


b 代 表 冬 率 


一 条 线 的 斜率 。” 即 对 一 条 线 的 角度 的 量度 。 线 的 斜率 越 大 ，b 值 越 
大 ， 而 一 条 相对 较为 平坦 的 线 的 斜率 则 会 接近 于 0。 为 了 计算 和 斜 座 ， 可 
测量 X 轴 ( 边 长 〉》 上 的 各 个 单位 对 应 的 一 条 线 的 上 升 速度 〈“ 蜗 ”"， 或 者 
叫做 y 值 的 变化 ) 。 





线 的 斜率 代表 
线 的 角度 。 
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只 要 知道 斜率 和 Y 轴 截 距 ， 束 可 以 轻易 地 将 这 些 值 填 入 线性 方程 ， 
画 出 回归 线 。 


让 代为 我 找 出 斜率 和 
元 距 是 处 是 不 切实 际 
的 想法 ? 





让 R 创 建 一 个 回归 对 象 


如 采 和 希望 根据 一 个 变量 预测 另 一 个 变量 ， 只 要 将 后 者 提供 给 R，R 
就 会 一 口气 生成 一 条 回归 线 。 


实现 这 个 过 程 的 基本 函数 叫做 “Im”， 即 英文 线性 模型 ”这 两 个 词 的 
首 字 母 组 合 。 每 当 创 建 一 个 线性 模型 ，R 束 会 在 记忆 库 里 创建 一 个 对 象 
， 这 个 对 象 具有 一 长 串 属 性 ， 其 中 包括 回归 方程 的 系数 。 


= 司 











王座 模型 多 人 


小 心 ! 


任何 软件 都 无 法 判别 回归 线 是 否 有 用 


R 和 你 所 使 用 的 电子 数据 程序 能 够 神速 地 生成 回归 方程 ， 但 是 否 能 
发 挥 这 个 回归 方程 “以 一 个 变量 预测 男 一 个 变量 ”的 作用 却 取 决 于 
你 。 创 建 无 用 、 无 意义 的 回归 方程 并 非 难事 。 


练习 


试 一 试 ， 用 R 创 建 自 己 的 线性 回归 方程 。 


国 ”运行 下 列 公 式 ， 创 建 一 个 线性 模型 描述 你 所 分 析 的 数据 ， 指 
出 回归 线 的 系数 。 


myLm =- lm(received[negotiated==TRUE]~ 
requested[negotiated==TRUE], data=employees) 
myLm$coefficients 


团 ” 利用 R 找 到 的 数字 系数 ， 写 出 你 所 分 析 的 数据 的 回归 方程 。 


练习 解答 


你 用 R 算 出 的 系数 生成 了 哪个 公式 ? 


国 ”运行 下 列 公 式 ， 创 建 一 个 线性 模型 描述 你 所 分 析 的 数据 ， 指 
出 回归 线 的 系数 。 


Co es mg 人 EE 
> MyLm <- lmCreceived[lnegotiated== RUE ]~requcsted[negotiated==TRUE], data=employees) 
> MyLm$coefficients 





(Intercept) reauested[negotiated 一 TRUE] 
2.3121277 0.7256664 








利用 R 找 到 的 系数 ， 可 以 写 出 下 面 这 样 的 回归 方程 。 


这 是 加 归 廓 程 ! 


en 


技巧 


R 如 何 计算 斜率 ? ”可 以 看 出 ， 回 归 线 的 斜率 等 于 相关 系数 乘 以 Y 的 
标准 偏 产 ， 再 除 以 X 的 标准 偏差 。 


ber 过 


这 是 你 要 有 的 斜 率 |， 
这 个 方程 证 算出 


回归 到 的 镍 妹 ， b=.67*3.1/2.8 -607) 一 


唉 ， 只 能 说 ， 计 算 回 归 线 斜率 给 我 们 带 来 的 满足 在 于 一 一 我 们 能 
使 电脑 完成 索 重 的 工作 ， 都 是 些 极其 系 复 的 计算 。 不 过 ， 重 要 的 是 
记 住 这 句 话 : 


只 要 能 看 出 两 个 变量 之 间 具 有 密切 的 关系 ， 只 要 回归 线 有 意义 ， 
你 就 可 以 充满 信心 地 让 软件 计算 各 个 系数 。 








回归 方程 与 散 扣 图 密切 相关 


以 要 求 加 薪 8% 员 工 为 例 〈 他 想 知道 自己 会 加 薪 多 少 ) ， 翻 回 前 面 
几 页 可 以 看 到 ， 你 通过 观察 散 点 图 及 X 轴 上 89% 范 围 内 的 垂直 区 间 进 行 了 
预测 。 

















通过 lm 函数 找到 的 回归 方程 得 出 了 相同 的 结果 。 
WP Ye 

2 

= 7.9 


这 是 回归 方程 预测 网 他 
将 得 到 的 加 薪 结 果 。 


既然 如 此 ， 加 薪 计 算 器 是 什么 样子 呢 ? 


你 已 经 完成 了 一 系列 漂亮 的 工作 ， 找 到 了 一 个 加 薪 数 据 回归 方程 。 
这 个 回归 方程 能 不 能 帮助 你 创建 一 种 产品 为 你 的 朋友 和 同事 提供 巧妙 的 





薪资 咨询 呢 ? 


Ey, 


号 你 后 算法 ， 








加 薪 计 算 需 的 算法 正 是 回归 方程 
通过 细心 观察 过 去 提 过 不 同 加 薪 要 求 的 人 的 谈判 结果 ， 你 找 出 了 一 
个 回归 方程 ， 可 以 预测 给 定 加 薪 要 求 的 加 薪 结 


各 上 申 十 户 特 彰 这 个 污浊 
7 ”未 计算 江湖 和 和 姑 水平 ， 









对 于 正在 为 如 何 谈判 要 求 加 薪 而 犯愁 的 人 来 说 ， 这 个 方程 意义 非 
De ee 
可 靠 的 分 析 。 


使 用 这 个 函数 对 于 R 来 说 只 是 简单 的 算术 问题 。 假 如 想 预 测 要 求 加 
新 5% 的 人 能 够 期 竺 的 加 薪 ， 可 用 下 列 代码 : 








将 站 区 ICY_ 工 引 寺 SEE 投 
苔 5 (六 5961 ， 
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5 好 册 预 岂 加 赫 5 .8%6， 





世上 没有 傻 问题 


问 : ”我 怎么 知道 人 们 为 明天 提出 的 目标 会 不 会 和 今天 已 经 得 到 的 
结果 相似 ? 


答 : 这 是 回归 分 析 的 一 个 大 问题 。 不 仅 要 间 “ 明 天 与 今天 会 有 几 分 
相似 ? ”， 而 且 要 问 “ 要 是 明天 变 个 样 ， 我 的 业务 会 怎么 样 ? ”， 答 案 是 
你 无 法 知道 明天 是 否 会 像 今天 一 样 。 变 化 难免 ”会 有 发生 ， 有 时 还 会 
天 兰 地 别 。 发 生变 化 的 可 能 性 大 小 及 其 意义 取决 于 问题 类 型 。 


问 : ”为 什么 会 这 样 ? 


答 : ” 喔 ,对 比 一 下 医疗 数据 和 消费 者 偏好 吧 。 人 体 明 天 突然 改变 
生存 方式 的 可 能 性 有 多 大 ?可 能 性 不 是 没有 ， 尤 其 是 环境 发 生 突 变 ， 但 
可 能 性 不 大 ; 消费 者 偏好 明天 发 生 改 变 的 可 能 性 有 多 大 ? 你 可 以 打赌 ， 
消费 者 偏好 会 改变 ， 大 大 改变 。 


问 : ” 那 为 什么 还 要 劳 神 作 预测 呢 ? 


答 : ” 举 个 例子 ， 在 网 络 世 界 里 ， 优 秀 的 回归 分 析 能 在 一 段 时 间 里 
产生 巨大 利 洞 ， 哪 但 明天 就 失去 预测 能 力也 没关系 。 想 想 你 自己 的 行为 
吧 ， 对 于 一 家 在 线 书店 来 说 ， 你 ， 不 过 是 一 个 数据 集 。 


问 : 挺 孝 问 的 。 


答 : ”并 非 如 此 一 一 这 说 明 书 店 知道 如 何 为 你 提供 你 需要 的 东西 。 
你 是 一 个 数据 集 ， 书 店 对 你 这 个 数据 集 进行 回归 分 析 ， 预 测 你 要 买 的 
书 。 除 非 你 的 品位 发 生 改 变 ， 否 则 这 个 预测 一 直 有 效 。 奋 你 的 品位 变 
了 ， 开 始 买 其 他 书籍 ， 书 店 束 会 再 次 进行 回归 分 析 ， 从 而 获取 新 信息 。 


问 : ”这 么 说 ， 要 是 外 界 条 件 发 生 改变 ， 回 归 分 析 不 再 有 效 ， 我 就 
得 进行 更 新 了 ? 
答 : “再 说 一 遍 ， 这 取决 于 你 的 问题 类 型 。 要 是 你 有 充足 、 定 性 的 


理由 相信 你 的 回归 分 析 是 正确 的 ， 那 么 有 可 能 永远 不 需要 改变 分 析 。 可 
要 是 你 的 数据 不 停 地 变化 ， 那 就 应 该 不 停 地 进行 回归 分 析 并 善 加 利用 : 



































各 回归 分 析 是 正确 的 ， 你 会 得 蔓 ; 但 要 是 现实 改变 、 回 归 分 析 失 败 ， 也 
不 至 于 影 啊 你 的 业务 。 


问 : ” 人们 不 该 看 见 别人 加 多 少 薪 就 要 求 给 自己 加 多 少 薪 吧 ? 应 该 
认为 自己 值得 加 多 少 攻 就 要 求 加 多 少 薪 吧 ? 


答 : ” 问 得 很 好 。 这 个 问题 其 实 是 你 的 部 分 心智 模型 ， 统 计 方 法 无 
法 判断 你 要 做 的 事 是 否 合情合理 。 对 于 定性 问题 ， 作 为 分 析 师 ， 你 需要 
尽 最 大 努力 进行 评估 。 不 过 直截了当 的 回答 是 你 配 大 幅度 加 新 ! ) 








练习 


接 竺 你 的 第 一 批 客户 ! 听取 他 们 的 感受 ， 写 下 你 认为 他 们 适合 提出 
哪 种 加 薪 要 求 ， 用 R 计 算 他 们 的 预期 结果 。 


ee 


| 
oO D 

、@ O° n> 

荡 蒜 疏 且 住友 是 宇 。 符 都 费 出 天 2 ， 载 要 沾 恒 昊 了 


冰 建 议 个 心 一 点 本数 字 发 _r 
已 ， 中 每 区 ， | 








练习 解答 





oo 首 批 客户 提 了 什么 建议 ? R 为 他 们 算出 来 的 预期 加 薪 是 
少 ? 









或 隐 玻 基 毅 何 本 出 。 热 
我 建议 个 中 一 点 的 吉 目 
吧 ， 中 等 网 。 







为 什么 未 要 33%3 这 个 数目 


位 于 誉 标 葵 总 . 


攻 person1 <- > 


|> 2.3 + 0.7*person1 
1] 4.4 
[1] s、 


> 


委 出 3% 蚁 作 哺 亡 得 到 大 娩 4 ,45 


来 看 看 结果 吧 .……. 














oC 
总 具 出 去 了 ， 我 要 西 人 元 1 







你 可 名 选 择 共 他 数 序 ， 


_ 


区 计 六 加 划 要 训 和 1396， 









> person2 <- 15<— 
> 2.3 + 0.7*person2 
[1] 12.8<—— 
有 





身 书 156 的 人 哺 营 得 到 头 拍 12.896 ,4 


你 的 加 新 计算 占 没 有 照 计划 行事 .….… 
人 们 纷 至 者 来 ， 请 你 提供 建议 ， 你 顺利 地 完成 了 第 一 波 业务 。 


然后 ， 电 话 铃 鹃 了 起 来 ”。 一 些 客户 对 结果 欢欣 种 跃 ， 妃 一 些 却 有 
难言之隐 ! 











忽 如 了 526! 我 我 天 湛 豆 ， 
仁太 只 了 了， 立 素 用 总 件 央 
从 者 了 i 








12.856? 先 邱 ， 我 符 
JT0 品 ， 广 就 救 个 痊 妾 
广 吧 ,i 


这 家 估 上 好事 攻 空 ， 








你 的 客户 是 怎么 执行 ”你 的 建议 的 ? 那些 闷闷不乐 的 人 有 什么 不 


欲 知 后 事 如 何 ， 请 听 下 回 分 解 ….… 


11 误差 
合理 误 





世界 错综复杂 。 


预测 有 失 精 准 并 不 稀奇 。 不 过 ， 如 果 在 进行 预测 的 时 候 指 出 误差 范 
图 ”， 你 和 你 的 客户 束 不 仅 能 知道 平均 预测 值 ， 还 能 知道 该 误差 造成 的 
典型 偏差 ， 指 出 误差 可 以 让 预测 和 信念 更 全 面 。 通 过 本 间 讲 授 的 工具 ， 
你 还 会 懂得 如 何 控制 误 兰 及 如 何 尽 量 降低 误 送 ， 从 而 提高 预测 可 信和 度 。 





客户 大 为 恼火 


在 上 一 章 中 ， 你 创建 了 一 个 线性 回归 算法 ， 这 个 工具 能 根据 人 们 要 


求 的 加 薪 幅 度 预测 他 们 的 实际 加 薪 幅 度 。 
许多 客户 都 在 使 用 这 个 加 薪 算 法 。 


SN 和 
我 加 了 f.5% .站 未 烙 了 ， 我 扫 
过 囊 痢 访 皇 前 镍 下 。 衣 该 括 蚁 民 
| 由 东芝 张 了 ， 现 耕 都 引 未 志 提 这 


一 -一 一 


Ea 一 


/人 BB 

A 5 ,0 中 党 读 料 有 时 肯 定 折 者 报 
险情 位 了 .位 升 沿 极 我 身上 福 1 
钱 了 | | 











a 谍 一 今 懂 次 汉 加， 听见 了 


— 本? 0.0 紧 、 对 于 你 那个 并 法 ， 
我 推 员 部 是 ， 


foe eta a 和 ( es 
乱 技 升 心 的 县 然 加 幕 暗 度 纪 = 址 让 来 的 一 捷 一 拌 。 


湖畔 从 激 了 0.5%6， a 谷 说 ， 记 太 神 了 ， 你 区 定 
| 匠 移 全 析 舍 ， ed 哺 妆 入 天 分 ， 修 让 我 滑 世 
i 





你 的 加 攻 预 测算 法 做 了 什么 ? 


i 









加 厅 计 算 融 


提出 菜 种 加 条 要 求 后 会 得 到 什么 结果 呢 ? 
用 下 面 这 个 方程 求 出 答案 ， 


其 中 x 是 罢 求 部 度 ，y 是 预期 得 到 的 竹 度 ， 





人 人 用 的 都 是 立足 于 可 靠 实证 数据 的 同一 个 公式 。 
可 人 们 的 遭遇 看 上 去 却 迎 然 不 同 。 
奥妙 何在 ? 


动 动笔 


对 开 页 的 各 种 说 法 是 定性 数据 ， 说 明 你 的 回归 算法 的 有 效 性 。 你 将 
如 何 给 这 些 说 法 归 类 ? 








你 从 性 质 方面 仔细 观 罕 了 客户 对 加 薪 预 测算 法 的 反应 。 结 果 如 何 ? 


各 种 说 法 了 


和 


说 ， 这 太 神 了 ， 你 肯定 有 某 各 天守 ， 件 让 我 钦 世 界 大 
伙 拌 了 . 二 
这 一 位 正中 目标 I 


我 非常 高 兴 . 虽 急 加 薪 六 度 比 预料 值 低 了 
0.52%6 ,但 还 是 很 可 现 。 我 完全 相信 ， 示 谍 
是 未 会 加 这 人 么 多 的 。 


人 这 一 位 抬 加 蓄 福 度 接近 


油 ， 但 孙 完 会 嘱 合 . 


对 ,我 一 仿 钱 也 设 加 ， 作 见 了 喝 ? 
0.09%6。 对 于 你 网 算 法 ， 我 很 有 意见 . 


无 法 相信 1! 比 算 出 的 结果 多加 了 
5.0%1 我 恋 判 时 肯定 把 老 村 给 镇 位 


了 ， 他 开始 入 我 身上 磺 钱 了 | 这 两 位 着 来 
养 远 了 















y 所 每 结 更 偏 关 扎 大， 而 最 后 一 种 气 ， 除 子 人 都 记 不 人 
卫士 晶 .~ 人 /十 LL, 





这 一 位 系 常 见 ， 很 准 对 
这 样 的 说 法 下 结论 ， 


我 加 了 4.5%， 算 示 错 了 ， 谍 想 这 是 我 访 得 
鬼 数 目 ， 我 讲话 鬼 时 候 太 紧 悉 了 ， 瑰 在 都 禄 


承 起 所 过 什么 要 市 了 . 


客户 组 成 


记 住 ， 回 归 方 程 预测 的 是 人 们 平均 得 到 的 结果 。 显 然 ， 并 不 是 每 个 
人 都 能 和 平均 值 一 样 。 





练习 
En 


把 要 求 加 薪 和 实际 加 薪 的 情况 画 在 ”一 张 散 点 图 上 ， 用 箭头 指出 下 
面 这 些 客户 在 散 点 图 上 的 位 置 。 


x 和 
RR 
\ p710%. ) 

We 
Oo 










栽 要 求 8%6 ， 搁 
果 加 了 7%。 





加 新 说 判 结果 














注意 到 特别 之 处 了 吗 ? 


重申 面 重 呈 溃 硬 时 呈 是 叶 硬 电导 和 市 业 和 


看 证 


本 和 


练习 解答 
你 刚刚 在 散 点 图 上 添上 了 代表 三 个 客户 的 新 点 ， 看 出 什么 了 ? 


555， 
pp i 
ee 果 如 了 756， 
S 
9 悦 


此 大 出 现在 虹 合 天 
察 区 欧 中 类 。 
/ 






要 求 加 薪 25% 的 家 伙 不 在 模型 范围 内 
用 回归 方程 预测 数据 范围 以 外 的 数值 称 为 外 插 法 。 小 心 外 插 法 ! 
回归 线 潮 行 渐 款 。 


加 薪 葡 浏 地 果 








你 对 这 里 发 生 的 情况 并 不 了 解 ”。 知 你 拥有 更 多 的 数据 ， 也 许可 以 
用 方程 式 来 预测 油 进 的 加 薪 要 求 冲 来 的 结果 。 


人 你 肯定 得 再 用 新 数据 计算 回归 方程 ， 才 能 确保 得 到 正确 的 回 
归 线 。 

外 插 法 与 内 插 法 ”有 所 不 同 ， 和 内 插 法 对 数据 范围 内 的 点 进行 预测 ， 
这 正 是 回归 法 的 本 来 目的 。 内 插 法 很 准确 ， 但 使 用 外 插 法 就 得 小 心 了 。 


人 们 随时 都 在 使 用 外 插 法 。 不 过 ， 如 果 打 算 使 用 外 插 法 ， 就 需要 指 
定 附 加 假设 条 件 ， 明 确 表示 不 考虑 数据 集 外 发 生 的 情况 。 





动 动脑 


要 是 有 一 位 客户 想 知 道 要 求 加 薪 30% 会 得 到 什么 结果 ， 你 会 怎么 回 
答 他 ? 


如 何 对 待 想 对 数据 范围 以 外 的 情况 进行 预测 的 客 
a 
根据 假设 进行 预测 ; 


要 是 有 客户 想 对 数据 范围 以 外 的 情况 进行 预测 ， 基 本 上 有 两 种 可 能 
的 答复 : 一 是 无 可 奉 告 ， 二 是 提出 一 个 假设 ， 据 此 进行 预测 。 


根据 假设 进行 预测 ， 






理 案 夫 握 天 法 由 或 们 视 记 。 和 不 
试 。 售 车 者 好 ， 加 泌 走 事 各 0 站 
让 是 合理 曲 。 竹 认 交 你 全 得 开 2035、 
大 出 。 







无 可 地 上 告 : 








元 可 惫 和 当 。 要 呈 你 委 
市 25 冶 ， 我 下 知 议 涩 冰 
计 么 茜 采 、 | 











哪个 答复 对 客户 更 有 用 ? 第 二 个 答案 可 能 会 让 客户 感到 满意 ， 因 
为 客户 得 到 了 有 具体 的 预测 ， 但 是 ， 低 劣 的 预测 比 不 作 预 测 更 粳 糙 。 


世上 没有 伊 问题 
问 : 到 底 在 数据 范围 以 外 发 生 哪 种 情况 会 引发 这 样 的 问题 ? 


答 : “在 你 所 用 的 数据 范围 以 外 ， 可 能 根本 就 没有 数据 。 就 算 有 数 
据 ， 也 是 大 相 径 隆 。 这 些 数据 其 至 可 能 是 非 线性 的 。 


问 : ”但 我 不 一 定 要 把 所 有 数据 点 都 放 在 数据 范围 内 。 
答 : 没 错 ， 这 是 数据 质量 和 抽样 问题 。 要 是 你 用 的 不 是 全 部 数 


据 ， 而 是 抽样 数据 ， 那 么 就 要 确保 这 些 抽样 数据 能 代表 整个 数据 集 ， 从 
而 能 够 据 此 建立 模型 。 








问 : ”考虑 在 各 种 假设 的 、 纯 推理 的 条 件 下 发 生 的 情况 难道 是 多 此 
一 举 吗 ? 


答 : ” 非 也 ， 肯 定 应 该 考虑 。 但 这 需要 训练 ， 确 保 你 对 假设 情况 的 
想法 不 会 影响 到 你 对 现实 情况 的 想法 (及 行动 )。 
问 : ”对 未 来 进行 预测 不 算 外 插 法 吗 ? 


答 : ”是 外 插 法 ， 但 这 是 否 会 带 来 问题 则 取决 于 你 的 研究 对 象 。 你 
的 观察 对 象 会 在 未 来 发 生 彻头彻尾 的 改变 还 是 相当 稳定 ? 宇宙 的 物理 定 
律 可 能 不 会 在 下 个 星期 发 生 巨变 ， 但 证 券 市 场 的 各 种 关系 却 有 这 种 可 
能 。 考 虑 这 些 问 题 将 会 帮助 你 懂得 如 何 使 用 自己 的 模型 。 





小 心 | 





和 万 要 对 模型 假设 保持 戒心 

观察 他 人 的 模型 时 ， 一 定 要 想 一 想 他 们 的 假设 有 何 道理 ， 以 及 他 们 
是 否 乐 记 了 某 种 假设 。 不 合适 的 假设 会 使 模型 完全 失效 一 一 这 还 算 
是 最 好 的 结果 ; 最 坏 的 结果 是 具有 危险 的 欺骗 性 。 








建立 模型 

看 看 下 面 这 一 连 音 针对 加 薪 计 算 需 的 假设 ， 要 是 茶 个 假设 正确 ， 会 引 
起 模型 发 生 哪 种 改变 ? 

在 数据 范围 内 ， 几 年 来 的 经 济 效 荔 都 大 致 相同 ， 可 今年 赚 的 钱 少 多 了 。 


本 


在 我 们 拥有 的 数据 范围 内 ， 所 有 的 加 薪 工 作 都 由 同一 位 老板 负责 ， 但 他 
离开 了 公司 ， 这 个 工作 由 另外 一 位 老板 接管 。 








本 


CE 


各 个 点 在 20% 一 50% 范 围 内 的 分 布 情况 与 在 10% 一 20% 苑 围 内 的 分 布 情 
况 看 起 来 很 相似 。 


只 有 高 个 子 才 要求 加 新。 


建立 模型 


看 看 下 面 这 一 连 音 针对 加 薪 计 算 需 的 假设 ， 要 是 茶 个 假设 正确 ， 会 引 
起 模型 发 生 哪 种 改变 ? 


在 数据 范围 内 ， 几 年 来 的 经 济 效 荔 都 大 致 相同 ， 可 今年 赚 的 钱 少 多 了 。 


营 开 万 





a 东 基 人 革 让 前 教 托 范 加 内 ， 庆 让 的 部 若 二 作 录 生 同 一 党 老板 负 
ta 专 ， 刘 做 高 开 了 公司 ， 这 个 上 亿 测 吴 外 一 位 尼 板 近 管 。 
E 完 剖 了 ， 除 闵 握 划 , . 
pe ro 新 老 扼 可 屁 售 有 不 同 昌 殷 法 ， 也 许 会 推 攻 措 合 ， 


一” 你 其 谈 内 方式 交 对 友 站 录 革 赴 孔 证 大 影响 。 


一 





~ 


学 手 杀 强 湖 关于 直人 笨 讶 
别 朗 起 歇 数 禄 ……' 措 型 
用 认 囊 证 区 同 的 种 攻 党 
坝 带 来 网 平 块 加 霖 合 果 


郊 信 志 在 25 鸭 -55 各 贡 十 睹 的 共 行 而 拖 瑟 在 10 全 一 20 必 和 苑 恒 内 
能 分 布 常 讽 宕 起 来 经 丫 坎 。 


所 村 过 个 假设 正确 :再 路 灶 塘 向 各 方程 
只 有 高 个 过节 去 求 加 条 


条 
狼 洒 好 可 各 出 高 
人 本村 下 得 好 ， 贞 oo 


既然 已 经 考虑 了 各 种 假设 对 模型 的 影响 ， 现 在 要 做 的 就 是 改变 算 
法 ， 从 而 让 人 们 知道 如 何 使 用 外 插 法 。 


动 动笔 


你 需要 调整 算法 ， 指 导 客 户 回 避 外 揪 法 的 陷阱 。 你 会 增加 哪些 内 容 
呢 ? 





加 薪 计 径 虞 


提出 某 种 加 埋 要 求 后 会 得 到 什么 结果 呢 ? 
用 下 面 这 个 方程 求 出 答案 ; 


在 这 壬 号 下 使 用 外 za 


落 法 拘 夭 去 。 其 中 x 吓 要 求 站 度 ，Y 是 预期 得 到 的 颠 庚 。 
全 
WE 





加 薪 谈 判 结果 











So 0 09000 0 0 人 V0 


To 


如 何 修改 加 薪 算 法 能 确保 客户 不 外 插 到 数据 范围 以 外 ? 


加 冰 计 算 础 
pe 
提出 某 种 加 薪 惨 求 后 会 得 到 什么 结果 呢 ? 
用 下 面 这 个 方程 求 出 答案 : 


试 就 是 许 星 
号 上 各 注 知 . 


福 砚 回归 方程 让 其 中 x 是 要 求 额度 ，y 是 预期 得 到 的 额度 。 
运 个 范 园 内 哨 数 ， 













但 这 个 公关 品 在 如 菜 要 击 (0) . 介 于 026 
a lh 





你 呐 显 束 加 薪 娄 祷 六 
范 国 权臣 圳 到 这 儿 -7 
只 要 秀 这 22 和 0， 就 无 汇 
知 送 会 抽 生 针 么 情况 ， 


你 会 如 何 改变 算法 ， 指 点 客户 避免 外 插 ? 









E 
、 


可 肥 2 几 o 
求 已 直 计 DT 台 会 档 丈 | 全 日 可 以 料 定 ， 


由 于 使 用 外 插 法 而 惨 让 解雇 的 家 伙 冷 静 下 来 了 









喀 ， 起 友 体 作 租 释 购 时候 修 
正 了 自己 揭 分 折 ， 很 公道 。 
下 决 我 准备 要 囊 加 薪 的 时 候 还 
找 你 。 







经 过 改进 的 新 回归 公式 很 少 再 让 客户 走 进 未 知 统计 地 种 。 
这 么 说 ， 你 的 工作 到 此 为 止 了 ? 


你 只 解决 了 部 分 问题 
多 人 的 加 薪 结果 存在 捏 击 ， 但 他 们 所 要 求 的 加 某 幅 度 就 在 你 


你 该 为 这 些 人 做 什么 呢 ? 






载 韶 未 8% ， 结 
于 加 了 7%. 


吕 


这 证 伙 得 到 酌 风 要 市 脑 多 得 人 










汇 要 玉 5 弘 ， 和 车 
军 加 了 7096 . 





VS 
1 
到 归 持 蘑 光 , 要 全 网 猎 猎 








扭曲 的 加 薪 结 琳 数 据 看 起 来 是 什么 样子 ? 


再 看 一 看 你 的 图 形 和 回归 线 。 为 什么 人 们 的 实际 加 薪 不 正好 等 于 他 
要 求 的 加 薪 呢 ? 


你 如 何 诅 甘 有 有 娄 人 得 到 况 
如 新 出 措 型 预测 拘 多 1? 
/ 


加 敌 访 允 结 果 





一 ”着 在 铝 晤 线 下 劣 的 / 4 
人 人 谤 是 河 常 恼火， 一 一 


古 什 么 原因 造成 了 这 种 偏离 预测 结果 的 现象 呢 ? 


机 会 误 送 = 实际 络 朱 与 模型 预测 结束 之 间 的 偶 关 


无 论 你 的 回归 分 析 是 否 无 可 挑剔， 都 免不了 要 进行 这 样 那样 的 预 
人 mu 吉 果 与 预测 结果 之 间 的 偏差 叫做 
沁 会 误 


在 统计 学 中 ， 机 会 误差 又 称 为 残 着 ”， 对 残 关 的 分 析 是 优秀 的 统计 
模型 的 核心 。 


分 析 
弓箭 手 会 射 中 哪里 ? 预测 





时 间 












这 个 结 好 也 
摸 型 赐 预 测 © 
值 高 出 8%. 


20 








尽管 你 可 能 永远 无 法 恰当 地 解释 每 个 偏离 模型 的 残 差 的 原因 ， 但 必 
须 小 心 观察 散 点 图 上 的 残 差 


人 
途 。 











预测 总 是 与 机 会 误差 同 在 ， 你 可 能 永远 也 想 不 通 上 自己 的 
数据 中 为 什么 会 出 现 机 会 误差 。 





动 动笔 


最 好 进一步 调整 你 的 算法 : 这 一 次 ， 你 可 能 应 该 描述 误差 。 


下 面 是 一 些 有 可 能 添加 到 算法 中 的 关于 误差 的 前 提 条 件 ， 你 打算 将 
哪 一 个 添加 到 算法 中 ? 


“由 于 存在 机 会 误差 ， 模 型 可 能 无 法 为 你 指出 预测 结果 。” 





“我 们 只 为 符合 模型 结果 的 实际 结果 提供 担保 。” 


CE 
LE 
和 
nn 
CE 
LE 
而 


“请 注意 ， 由 于 存在 机 会 误 兰 ， 你 个 人 的 结果 可 能 会 不 同 于 预测 结 
果 。 


和 


加 新 计算 内 


堪 出 某 种 加 莫 下 求 后 会 冬 到 什么 赎 果 妮 ? 用 
画 议 个 方针 求 出 答 宁 : 


~ GD 






其 中 x 星 坚 求解 库 ，y 是 周期 祥和 到 的 害 功 但 3 
i [zl 亲 于 0 各 天 22 六 之 司 


学 涡 党 渴 杀 计 合 
出 砚 丰 这 交 . 





| 
可 ? 


“由 于 存在 机 会 误差 ， 模 型 可 能 无 法 为 你 指出 预测 结果 。 





“我 们 只 为 符合 模型 结果 的 实际 结果 提供 担保 。” 











“请 注意 ， 由 于 存在 机 会 误差 ， 你 个 人 的 结果 可 能 会 不 同 于 预测 结 
Re 


正确 ， 但 不 是 特别 让 人 满意 。 除 非 我 人 效 的 工具 ， 否 则 i 
个 方法 会 





O 〇 





加 新 计 和 公明 


提出 其 种 加 由 至 求 ht 到 什么 汕 果 昵 ? 用 如 
别 这 个 方 乃 求 出 入 实 


人 Y=2.3+0.7X ) 所 
Same 


只 中 x 是 村 求 镶 医 ，y 是 入 项 怖 到 的 句 匡 。 们 这 | 

纹 症 对 加 多 课 个 耸 式 只 在 加 莉 夏 求 1x1 介 于 0% 有 22% 之 站 | 
名 辐 问 示 ， 时 有 效 . 刘 
人 请 注 系 中 于 癌 在 灿 伍 课 兰 ， 你 个 六 的 | 








sn 
/ 涩 们 天 要 共 反 蝎 
op & 皇 误 蚌 j ) 


人 | 
Oe 





你 失去 了 所 有 客户 。 
这 事 儿 挺 难 开口 的 ; 你 的 整个 业务 者 完了。 新 资 算 法 中 的 最 后 一 行 
人 们 认为 你 能 帮忙 ， 或 是 人 们 认为 你 的 产品 一 文 不 











你 打算 如 何 修复 目 己 的 产品 ? 





误 兰 对 你 和 客户 都 有 好 处 


你 越 是 对 客户 将 在 预测 结 末 中 发 现 的 机 会 误差 漫不经心 ， 你 和 客户 
的 距离 就 越 远 。 








你 的 客户 你 的 产品 


不 现实 的 预期 0 
reed 
想当然 的 错觉 D 
\ a 







浇 蒜 古寺 里 隘 ， 但 各 扫 
刚 向 挤 抽 特性 么 …-… 








指出 误差 并 不 ”意味 着 你 的 分 析 是 错误 的 ， 只 能 说 明 你 对 预测 的 真 
0 你 的 预测 ， 越 是 能 根据 预测 作出 
正确 的 决策 。 


让 我 们 定量 地 指出 误差.……. 


机 会 误差 访谈 
本 周 访谈 : 
什么 是 机 会 ? 
Head First: 伙计 ， 你 是 我 的 眼中 钉 肉 中 刺 。 
机 会 误差 : 说 清楚 点 ? 


Head First: 是 这 样 ， 因 为 你 的 原因 ， 利 用 回归 分 析 永 远 无 法 做 出 
正确 预测 。 


机 会 误差: 什么 ? 各 种 测量 方法 都 少不了 我 ， 尤 其 是 回归 分 析 。 

Head First: 哼 ， 只 要 有 你 在 ， 谁 会 信任 回归 预测 ”要 是 我 们 的 客 
户 想 知道 提出 加 薪 后 能 够 到 手 多 少 ， 他 们 不 会 愿意 听见 我 们 说 “模型 预 
测 结果 和 实际 得 到 的 结果 难免 、 可 能 有 误差 ”! 


机 会 误差 : 你 全 搞 错 了 。 你 应 该 这 样 看 竺 我 : 机 会 误 兰 始终 存 
在 ， 但 只 要 慌 得 如 何 向 别人 解释 就 并 不 可 怕 。 


Head First: 这 么 说 误差 不 一 定 是 个 坏 字 眼 。 


机 会 误差 : ”绝对 不 是 ! ! ! 误差 能 派 上 用 场 的 地 方太 多 了 。 实 际 
上 ， 要 是 人 们 经 常 以 更 受 当 的 方法 指出 误差 ， 世 界 会 更 美好 。 


Head First: 好 吧 ， 既 然 如 此 ， 我 现在 打算 这 么 做 一 一 假定 有 一 个 
人 想 知 道 提 出 加 薪 7% 的 要 求 会 带 来 多 少 加 薪 ， 我 束 说 :“ 模 型 预测 结果 
是 7%， 但 机 会 误差 指出 你 可 能 会 得 到 其 他 结果 。” 


机 会 误差 : 这 么 说 怎么 样 : 如 果 要 求 加 新 7%， 可 能 得 到 6% 至 
8%。 昕 上 去 是 不 是 好 一 些 ? 


Head First: 听 上 去 一 点 儿 不 吓人 ! ! ! 真 的 这 么 简单 ? 


机 会 误差 :” 没 错 ! 喔 ， 可 以 这 么 将。 实际 上 ， 控 制 误 差 才 是 真正 
的 大 问题 ， 你 可 以 找到 一 大 堆 统 计 工 具 来 分 析 和 描述 误 壮 ， 但 最 重要 的 








2 要 知道 ， 指 出 预测 范围 比 单单 指出 一 个 数字 有 用 得 多 《并 且 可 靠 得 
站 二 


Head First: 我 能 用 误差 范围 来 描述 主观 概率 吗 ? 

机 会 误差 : ”可 以 ， 而 且 确 确实 实 应 该 这 么 做 。 再 举 个 例子 ， 请 问 
下 面 哪 一 位 分 析 师 思路 更 严密 ， 一 个 说 他 相信 明年 股市 会 上 涨 10%; 男 
一 个 说 他 认为 明年 股市 会 上 涨 0%-20%? 


Head First: 这 还 用 说 ， 第 一 位 不 会 真 认为 股市 会 正好 好 上 涨 
10%; 男 一 位 村 理性 。 


机 会 误差 答对 了 。 
Head First: 那么 ， 你 说 你 来 自 哪 里 ? 


机 会 误差 : ” 哦 ， 管 案 可 能 不 太 妙 。 很 多 时 候 痢 无 法 知道 机 会 误差 
来 自 哪 里 ， 尤 其 是 对 于 单一 观察 对 象 。 


Head First: 是 吗 ? 你 是 说 不 可 能 解释 观察 结果 为 什么 会 偏离 模型 
预测 结果 吗 ? 


机 会 误差 ”有 一 部 分 偏差 能 解释 。 例 如 ， 你 可 能 能 够 把 一 些 数据 
A 借 此 减 小 机 会 误差 。 但 在 某 种 程度 上 机 会 误差 还 是 会 存 
人 














Head First: 这 么 说 我 的 工作 就 是 尽量 让 你 变 小 ? 


机 会 误差 ”你 的 工作 应 该 是 尽量 为 目 己 的 模型 和 分 析 增 加 解释 和 
预测 功能 ， 也 就 是 要 周到 地 对 待 我 ， 而 不 是 甩 掉 我 。 








定量 地 指定 误 关 


实际 结果 恰好 等 于 预期 结 
机 会 误差 如 何 分 布 ( 残 差分 布 


你 需要 一 个 统计 值 ， 通 
对 于 回归 线 的 平均 偏 移 量 。 





果 是 件 让 人 高 兴 的 事 ， 但 真正 的 问题 在 于 
六 


它 体 现 出 典型 的 点 《或 称 为 观察 结果 ) 相 


加 靳 谈判 结果 


回归 线 周 图 的 或 天 全 市 
说 明了 撕 型 的 分 种 特点 ， 





回归线 周 图 的 观察 结果 益 
移 集 ， 回 电线 认可 总 





叫 ， 折 起 来 像 入 淮 偏 委 ， 和 标 


淮 偏 委 体 观 出 典型 网 点 相对 
于 平声 观察 结 景 欧 偏 差 。 4 


Sh 


一 一 





确实 如 此 。 作 为 一 种 量度 方式 ， 相 对 于 回归 线 的 机 会 误差 (或 者 称 
为 均 方 根 误差 ) 的 分 布 与 相对 于 平均 值 的 标准 偏差 具有 相同 的 用 途 。 


有 了 回归 线 的 均 方 根 误差 值 ， 惑 能 告诉 客户 实际 结果 与 典型 预测 结 
果 之 间 可 能 有 多 大 差距 。 








用 均 方 根 误差 定 量 表示 残 兰 分 布 


还 记得 标准 偏差 的 单位 吗 ? 和 测量 对 象 的 单位 一 样 : 如 果 最 终 得 到 
的 加 薪 的 标准 侦 差 为 59%， 那 么 典型 的 观察 结果 相对 于 回归 方程 预测 出 
来 的 值 将 会 偏离 5%。 


均 方 根 误差 也 是 如 此 。 假 如 ， 根 据 要 求 值 预 测 实际 值 的 均 方 根 误差 
为 5%， 那 么 ， 典 型 的 观察 结果 与 回归 方程 预测 出 来 的 值 可 能 偏离 5%。 





标准 偏差 这 种 
度量 方 区 描述 
的 是 一 个 变量 ， 


让 际 加 薪 煞 颖 





标准 偏 关 描述 的 是 平 
均值 周围 的 分 布 情况 ， 


区 方 根 齐 类 挡 壕 证明 加 


a 


Ed 


协 方 扣 误 音 指 
只 殉 人 家 量 之 
阅 的 基 素 ， 








既然 如 此 ， 如 何 计 算 均 方 根 误差 呢 ? 


R 模 型 知道 存在 均 方 根 误 


在 上 一 章 中 ， 你 在 R 中 创建 了 线性 模型 对 象 ， 这 个 对 象 并 非 只 知道 
Y 轴 截 距 和 回归 线 的 斜率 。 


它 有 一 个 连接 模型 中 的 各 种 统计 值 的 句柄 ， 均 方 根 误差 也 在 其 中 。 
WE 那么 请 在 做 下 一 个 练习 之 前 先 输 
入 以 下 攻 





和 他 要 各 莫 最 新 六 数 括 


WE 
十 
eM Na mp avlL i abs .Com hocks nti 
Cs 站 入 EI a =E3.C3 pe We Ser— lJk!} 
vin 人 一 SAUZASOTuAC NACIJELLIALCEG==24521* 
eo eeler egol. -al.cd==TRIUE|, dels=5ME lw es! 
村 恰 可 虹 我 各 


化 毗 





R 的 内 部 使 用 下 面 这 个 公式 计算 均 方 根 误 差 : 
hy TE 


y 鬼 标准 偏 妈 . 相关 系数 . 


世上 没有 傻 问 题 

问 : 我 需要 把 这 个 公式 背 下 来 吗 ? 

答 : 。 很 快 你 就 会 看 到 ， 用 R 或 者 其 他 统计 软件 计算 均 方 根 非常 广 
便 ， 重 要 的 是 ， 你 要 知道 误差 是 可 以 定量 描述 、 定 量 使 用 的 ， 还 有 ， 要 
能 够 描述 预测 结果 中 包含 的 误差 。 

问 : ”所 有 的 回归 方程 都 用 这 个 公式 描述 误差 吗 ? 

答 : ” 非 线性 回归 或 多 元 回归 将 使 用 其 他 公式 确定 误差 。 实 际 上 ， 
即使 是 线性 回归 ， 也 不 止 均 方 根 这 一 种 描述 偏差 的 方法 。 量 度 误差 的 广 
法 应 有 尽 有 ， 具 体 取决 于 特定 情况 。 


一 试 身手 











让 我 们 用 R 代 蔡 代 数 方程 来 计算 均 方 根 误差 。 
输入 下 面 的 指令 ， 看 一 看 R 对 模型 的 汇总 : 
summary (myLm) 


均 方 根 误差 将 会 出 现在 输出 结果 中 ， 但 也 可 以 输入 下 面 这 个 指令 得 看 均 
方 根 误差 : 





方术 译 才 闵 坷 


人 "| 入 
Lol ll SS = SS 


接 下 来 ， 用 颜色 画 出 整 条 回归 线 周 围 的 误差 区 间 ， 显 示 出 均 方 根 误 差 。 


误差 区 间 应 该 沿 着 回归 线 分 布 ， 回 归 线 上 、 下 的 误差 区 间 宽 度 应 该 等 于 
同一 个 均 方 根 误差 。 

















加 薪 误 判 结果 


太 广 黑 并 掀 函 二 
谋 共 区 赔 ， 





R 的 线性 模型 汇总 展示 了 均 方 根 误 兰 
要 你 要 求 R 汇 总 线性 模型 对 象 ， 它 就 会 给 出 一 大 堆 有 关 对 象 实质 


的 信息 。 


这 捉摸 草 的 
总 体 精 况 ， 





> sammorygeyrLn) 


机 人 Jan: 
eo » rece vedl eyot loted -- TEE) ~ resoestedinegotiated 一 
eroloyees) 
丈 第 社 休憩 秆 用 头 家 Best 这 在 回 扫 郊 葛 
和 Min disn Ee Ma 容 
性 模型 前 各 种 从 条. 5 证 ， 
ieients: 
Ext Sa, frreor 4 vote preritl) 
2775 MR e016 "4 
Os7l N06 9 
二 
td. starcare error: .2 on Us egrest of freedca 
a pp ®. mt 人 六 A NR Saared 6425 
: -wlae: < 2.20-18 
这 是 坊 方 报 谋 帮 ! 加 床 闹 环 结 时 
人 


四 如 在 加 后 线 士 2.3% 拘 区 出 衣 


两 一 相 区 网 ， 竺 采 就 是 这 棕 ， 








你 不 仅 能 看 到 和 上 一 半 一 样 的 回归 系数 ， 还 能 看 到 均 方 根 误差 和 大 
量 其 他 体现 模型 特征 的 统计 值 。 


动 动笔 


你 即将 重新 处 理 你 创建 的 薪资 算法 。 能 更 细致 地 描述 机 会 误差 吗 ? 


怎样 改动 这 个 算法 才能 纳入 均 方 根 误差 呢 ? 在 加 薪 计 算 器 中 写 下 你 


的 答案 。 








一 、 





加 新 计算 融 


援 出 某 种 加 和 匡 要 求 后 金 得 到 什么 结果 呢 ? 
用 下 而 这 个 方程 求 出 答案 ; 


其 中 x 是 要 求 额度 ，y 是 预期 尘 到 的 窟 度 ， 


但 这 个 公式 只 在 加 天 要求 【x) 介 于 0% 到 
225%% 之 问 时 有 效 ， 










可 心 删除 这 个 说 该 ， 





在 这 里 为 如 薪 计 荆 
贺 加 入 新 说 法 . 





利 罗 坎 方 根 刘 温 
Of a 


Residual standard error:.2.298 
Multiple R-squared: 0.4431， Ad 





让 我 们 看 看 以 回归 线 的 均 方 根 误 兰 结束 的 新 算法 。 


NN 





加 六 计算 病 


堪 口 苏 科 加 六 轿 求 三 会 很 利 村 么 斩 米 开 ? 
用 下 面 这 个 方 称 未 山葵 家 : 


其 中 x 中 至 求 抠 度 、Y 芋 办 期 得 习 为 饼 度 . 


这 向 话 等 拆 客 户 季 们 
企 这 个 公开 只 在 加 具 球 水 'X 并 十 0 名 加 


站 以 其 待岗 如 莫 范 轩 ， 22% 之 后 且 有 效 。 
\ 文部 细 【 亿 站 革 念 名 :各区 本 要 部 多 
Ne 向 于 油 信 了 本 并 革 轩 32,5 弘光 冰 必 用 ，、 










就 是 说 要 是 我 要 求 7%， 将 会 得 到 
4.5 一 9,526? 你 要 是 想 让 我 将 好 听 
你 的 ， 就 得 再 说 清楚 一 些 ， 和 拜托 你 
答 匠 一 个 谍 天 小 点 儿 易 预测 ， 行 未 ? 





能 不 能 想 办 法 让 这 个 回归 预测 用 处 更 大 呢 ? 能 不 能 检查 一 下 数据 ， 
能 


练习 





将 散 点 图 分 割 成 不 同 取 值 区 间 进 行 观察 。 在 回归 线 的 不 同 区 间 扩 ， 
均 方 根 误差 是 否 有 差 腊 ? 


针对 散 点 图 上 的 每 个 取 值 区 间 ， 用 颜色 涂 出 误差 所 在 的 区 间 。 














己 经 在 这 里 篇 你 取 
了 一 个 到 值 区 间 。 


发 现 哪些 取 值 段 的 残 关 有 显著 不 同 吗 ? 


练习 解答 





你 已 经 观察 过 每 个 取 值 区 间 的 均 方 根 误差。 发 现 什 么 了 ? 


加 薪 鳞 判 关 采 


“一 迁 册 的 刘磊 高 得 部 。 





为 什么 右 侧 的 误 兰 更 高 ? 
观察 数据 ， 想 一 想 数据 的 确切 意义 。 





吉姆 : “老兄 啊 ， 简 直 狐 了 ! 似乎 散 点 图 上 的 每 个 取 值 区 间 的 
预测 分 布 都 不 一 样 ! 
乔 : ”是 啊 ， 真 是 疯 了 ， 真 的 。 我 们 究竟 应 该 怎么 向 客户 解释 





呢 ? 

吉姆 : 客户 是 不 会 为 这 种 预测 付 钱 的 。 要 是 我 们 对 客户 
说 , “要 求 加 薪 7% 一 8% 时 ， 误 兰 看 起 来 相对 较 低 ， 但 要 求 加 薪 109% 
一 119% 时 ， 误 差 就 一 飞 冲 天 了 客户 是 不 会 理解 的 。 

弗兰克 : ， 喂 ， 放 松 点 ， 兄 弟 们 。 也 许 我 们 该 想 想 各 个 误差 区 
， 会 是 这 模样 ， 这 也 许 能 帮助 我 们 理解 所 有 这 些 区 间 的 加 
新 现象 。 

吉姆 : [嘲笑 状 ] 你 又 在 思 前 想 后 了 。 

弗兰克 : 呢 ， 我 们 是 分 析 师 嘛 ， 对 不 对 ? 

乔 : ” 行 ， 让 我 们 看 看 人 们 提出 的 要 求 。 在 坐标 起 始 处 ， 有 一 
片 颇 为 不 小 的 数据 ， 一 冲 到 59% 左 右 就 收 窗 了 。 

吉姆 : ”对 ， 而 且 在 这 一 片 数据 中 只 有 三 个 人 提出 的 加 薪 要 求 
低 于 59%， 因 此 我 们 也 许 不 应 该 对 4% 一 59% 区 间 内 的 误差 过 于 相信 。 

弗兰克 : 说 得 好 ! 那么 现在 让 我 们 看 看 从 5% 直 到 10% 的 区 
间 ， 这 一 带 误差 最 小 。 

乔 : ” 咖 ， 人 们 对 自己 的 要 求 持 保守 态度 ， 而 他 们 的 老板 呢 ， 
也 相应 地 持 保 守 态 度 。 

弗 兰 元 :然后 ， 当 跨 过 10%.....…. 

吉姆 : 后 果 难 料 啊 ， 想 想 吧 ，15% 可 谓 大 幅度 加 薪 ， 我 看 一 般 
大 家 没有 胆量 提出 这 种 要 求 。 谁 知道 老板 会 有 什么 反应 ? 

弗兰克 : 有 意思 的 假设 。 你 的 老板 可 能 会 因为 你 的 大 胆 而 奖 
赏 你 ， 也 可 能 会 因为 你 的 冒失 而 给 你 点 颜色 看 看 。 

吉姆 : 一 旦 你 狮子 大 开口 ， 任 何事 都 有 可 能 发 生 。 

乔 : ”知道 吗 ， 兄 第 们 ， 我 认为 我 们 的 数据 里 包含 两 类 人 。 说 
确切 一 点 就 是 ， 我 认为 我 们 应 该 有 两 种 模型 。 


要 是 把 数据 拆 开 ， 分 析 结 条 会 怎么 样 呢 ? 








分 割 的 根本 目的 是 管理 误 兰 


将 数据 分 拆 为 几 个 组 称 为 分 制 ”。 如 果 为 几 个 分 组 分 别 创建 预测 模 
型 比 单独 使 用 一 个 模型 更 能 减 小 误差 ， 则 应 进行 分 割 。 


在 单独 使 用 一 个 模型 时 ， 要 求 加 新 10% (或 以 下 〉 的 人 的 估计 误差 
太 高 ， 而 要 求 加 薪 10% 以 上 的 人 的 估计 误差 则 太 低 ! 


加 薪 谈 判 结果 








a ; se 这 个 估计 误差 太 低 ， 

观察 取 值 区 间 可 以 看 出 ， 两 个 分 区 内 的 误差 角 然 不 同 。 实 际 上 ， 将 
数据 分 割 为 两 个 分 组 ， 并 为 每 个 分 组 建立 一 个 模型 ， 将 能 对 数据 分 布 情 
况 给 出 更 切合 实际 的 解释 。 

将 数据 分 割 为 两 个 分 组 后 ， 统 计 结 果 更 敏感 ， 更 能 体现 各 个 分 区 内 
的 情况 ， 从 而 有 助 于 省 理 误差 。 





加 薪 谈 判 结果 





VD 


VOR 2 全 和 


这 些 误 差 人知 入 
本 切合 实际 . 


如 果 把 要 求 加 薪 10% 以 下 和 要 求 加 薪 10% 以 上 的 人 员 数 据 分 开 ， 两 
条 回归 线 很 可 能 具有 不 同 的 外 观 。 


这 就 是 分 开 后 的 数据 。 想 象 一 下 两 组 数据 的 回归 线 的 形状 ， 把 它们 
画 出 来 。 





加 帮 读 判 结 果 


pa 
所 示 : 几 侧 盟 点 要 
要 
Po 


妆 。 讽 征 人 一 
中 重 结 计 回 量 绕 部 


位 园 ， 





到 水 咱 吓 





记 住 : 回 晤 找 是 与 乎 类 值 图 2 
党 合 程 着 昌 席 渴 绕 系 ， 


. 已 经 创建 了 两 条 回归 线 一 一 也 就 是 两 个 独立 的 模型 ! 它们 外 观 如 
可 ? 


注 杂 模 吧 穿 提出 组 低 加 幕 要求 前 人 人 人群 ， 
与 数据 后生 合 程度 高 于 原来 的 祝 型 。 


| 加 狐 谈 判 结果 





亚 求 归 千 


这 条 访 革 穿 提出 党 涝 加 

薪 杰 击 的 读 判 人 群 ， 鱼 

车 与 另 一 条 绕 太 一 拌 . 
eX 













丙 条 回归 线 ? 啊 ? 怎 公 
杀 彰 个 20 条 呢 ? 我 能 为 每 个 
取 亿 区 网 单独 面 一 征 回 晤 

线 …… 你 看 几何 + 1 ? 





考 考 你 


是 个 好 主意 。 为 什么 国 两 条 就 打住 呢 ? 男 更 多 线 一 -多 得 多 ， 会 不 会 让 
模型 更 有 作用 呢 ? 


优秀 的 回归 分 析 兼 具 解 释 功能 和 预 训 功能 


将 加 新 分 析 图 形 分 为 两 个 分 区 既 能 让 分 析 结 果 与 数据 更 吻合 ， 义 能 
II 如 此 一 来 ， 你 的 模型 就 是 
模型 。 


你 的 分 析 应 处 于 中 央 某 个 位置 ， 





世上 没有 傻 问题 
引 : ”为 什么 只 把 数据 分 成 两 组 就 打住 呢 ? 为 什么 不 分 成 五 组 ”? 


1 


只 


要 是 你 有 很 好 的 理由 需要 那么 做 ， 请 动手 。 





问 : ”我 可 以 发 疯 般 地 把 数据 分 成 3000 组 ， 让 分 区 正好 等 于 数据 点 
上 肘 个 站 。 


答 : ”当然 可 以 。 要 是 真 这 么 做 的 话 ， 你 认为 3000 条 回归 线 对 于 预 
训 人 们 的 加 薪 幅 度 有 何 奇效 ? 


答 : ”要 是 真 这 么 做 ， 你 可 以 解释 一 切 。 所 有 的 数据 点 都 有 来 历 ， 
We 可 是 ， 这 些 模型 的 预测 ”功能 将 丧失 
始 人 


问 : ”那么 ， 有 一 大 堆 预 测 功能 而 没有 太 多 解释 功能 的 分 析 模 型 又 
古 一 副 什 么 样子 ? 


答 : 和 你 的 第 一 个 模型 有 些 像 。 比 如 说 这 样 一 个 模型 不管 提出 
什么 加 薪 要 求 ， 都 会 得 到 -1000% 到 1000% 之 间 的 加 薪 结 果 。 


问 :” 听 起 来 真 傻 。 

答 : ”当然 ， 但 这 个 模型 所 具有 的 预测 功能 不 可 思议 。 很 可 能 你 所 
接待 的 任何 人 都 不 会 超出 这 个 范围 ， 但 这 个 模型 什么 也 不 能 解释 。 这 
样 的 模型 是 以 解释 功能 换取 预测 功能 。 

问 : ”所 以 说 零 误 差 似乎 就 是 : 没有 任何 预测 能 力 。 

答 : “ 正 是 ! 你 的 分 析 应 该 介 于 具有 完全 解释 功能 和 具有 完全 预测 


功能 之 间 ， 具 体位 于 这 两 个 极限 位 置 之 间 的 哪个 位 置 取决 于 你 一 分 析 
师 的 最 佳 判断 。 你 的 客户 需要 什么 样 的 模型 ? 








动 动笔 


分 别 将 这 两 个 模型 的 均 方 根 误差 区 域 涂 上 颜色 。 


月 闫 色 区 域 东 去 惫 个 
搁 蔓 摧 丝 要 分 布 。 


加 薪 谈 判 结果 





相 比 原来 的 模型 ， 分 区 模型 能 更 好 地 处 理 误 3 


这 两 个 模型 更 好 地 描述 了 人 们 提出 加 薪 要 求 后 得 到 的 实际 加 薪 ， 因 
而 功能 更 强大 。 












\ 
有 小 读 判 者 





胆 小 谈 判 者 的 新 模型 与 数据 重合 得 更 好 。 

回归 线 的 斜率 更 靠 谱 ， 均 方 根 误差 更 低 。 

激进 谈判 者 的 新 模型 与 数据 也 重合 得 更 好 。 

回归 线 的 斜率 更 靠 谱 ， 均 方 根 误差 更 高 ， 这 更 好 地 体现 了 人 们 提出 





高 于 10% 的 要 求 后 得 到 的 结果 。 
让 我 们 在 R 里 实现 这 些 模 型 ...... 





练习 





现在 是 时 候 在 R 里 实现 这 些 新 模型 了 。 只 要 创建 了 模型 ， 就 能 通过 
系数 调整 加 攻 预 测算 法 。 


输入 下 面 的 指令 行 ， 创 建 与 两 个 分 区 相对 应 的 新 的 线性 模型 对 象 : 


瀛 从 过 码 井 诉 玉 经 头 注 数 据 崭 


na 这 乱 薪 鹏 人 的 数据 - 


2 


7 


MYLBiY <— lmlzamived ieoot. atel==TRIIE a reciestead > 1ul]. 
requcostedtln Cd--TRUL & <cqucezed > 101， 


mYTTSTB -区 nlreaseived Te 可 cf aad--—TRII™ 2 vecvesed <- 10]~ 
ICGducsstcdf[acgezla2ed== RU & cqucaced <=> 10°, 


i t=arpli yea: 


ee 并 以 10% 为 分 害 办 线 来 分 制 数据 , 一 一 一 一 


使 用 下 面 这 些 版 本 只 summary0 尔 数 伍 看 两 个 线 性 模型 对 象 的 汇总 
结果 ， 解 释 这 些 指 令 ， 说 说 每 条 指令 完成 的 工作 : 







summary (myLmSmall) scocefficients 
ummary (myLmSmall) $sigma 
summary (myLmBig) Scoefficients 


summary (myLmBig) $sigma 


这 些 结 时 会 社 体 
的 商法 更 有 效 ， 


练习 解答 


你 刚才 用 两 个 新 的 回归 方程 计算 了 分 区 数据 。 发 现 什 么 了 ? 


沙 你 告诉 只 例 建 新 模型 入 让 让 
时 ， 刀 录 在 前台 电 韦 仔 一 


片 苯 时 % 
何 信 息 ， ) 


一 ng 司 但 
> WLmig <- lmCrecetved[negottated“TRIE & requested > 20]~ requested[negotiated==TRUE & 
requcsted > 9] ，dotocmployeec5》 

> MylmSmall <- lm(received[negotiected 一 TRUE 8 reqsested <= 10]~requested[negotioted==TRIE 8 
requested == 190],dato-employees) 

> SummoryCmyLmSmail Scoofficients 


Estimate Std, Error value Pr(>it)) 
CIntercept) @.7933468 8.22472009 3.530378 4.378156e-84 
requested[negotiated ~ TRUE & requested < 10] 0.9424946 9.063151835 29.903041 6.588020e-134 


> SummaryCnylLmSmall Ssiomo 


Estimate Std, Error & volue PrC>ltl) 
CIntercept) 7.8134033 外 .8760371 4.164845 4.997597e-05 
requested[negotiated 一 TRUE Brequested > 10] 8.3026899 .1420151 2.130824 3.457618e-82 
> SumroryKmyLnsaig)5sigmo 
[Li] 4,.544424 


= A 





ee 这 是 新 回归 纸 
人 | 


庙 笠 诺 和 客人 
方 祖 访 考 ， 将 举 。 


动 动笔 


现在 ， 你 已 经 万 事 俱 备 ， 就 等 创建 一 个 更 强大 的 算法 帮助 客户 了 解 
提出 任何 加 薪 要 求 后 所 能 期 符 的 结果 。 让 我 们 弃 旧 迎新 ， 把 分 析出 
来 的 一 切 信息 都 用 上 。 


使 用 新 模型 的 斜率 和 截 距 ， 写 出 描述 这 两 个 新 模型 的 方程 式 。 


别 忘 记 吉 冰 外 鞠 计 ) 
每 个 述 蜡 庶 出 二 导入 说 吉 范 出 a 


i A ds 上 动 广 
根 斥 使 月 为 模型 ， 们 的 客户 兹 启 则 了 实际 可 蓝 与 下 比 加 大 插 骆 接 并 > i 





一 、 


加 颖 计算 芝 


提出 茶 补 加 阁 溉 求 后 党 神 刘 慎 息 结 条 吴 2 
用 下 可 这 个 方 旺 求 出 蔚 案 ， 


答案 将 会 点 区 和 
你 购 新 和 法， 





最 终 的 加 划算 法 是 什么 样子 ? 





加 薪 计 算 噩 
所 出 某 种 加 茶 要 求 后 会 得 到 什么 铺 果 呢 ? 


假如 x 是 要 求 客 度 ，Y 是 预期 很 到 的 侨 度 。 
这 是 依 加 六 李 如 果 要 求 加 茶 居 于 10%， 则 使 用 以 下 公式 ; 


尿 绝 模 卉 . 
| y=0.8+0.9x 












用 亲 笋 未 宠 关 


你 得 到 的 加 攻 将 会 是 预测 加 蒜 的 二 41.4% 
如 果 到 求 加 跨 等 干 或 商 于 10 的 ， 则 策 用 上 
下 公式 ， 


这 是 高 加 莱 妆 
彩 蚂 措 型 . 


你 得 到 的 加 匣 将 会 是 预测 加 匣 的 土 4.5%,& 
上 算法 仅 在 加 菏 要 求 不 超过 22%% 时 有 效 。 


~ 


这 是 在 警告 密 户 小 心 ， 示 要 进行 站 括 | 


你 的 客户 纷纷 回头 
新 算法 确实 开始 奏效 ， 人 人 都 为 此 激动 不 已 。 














现在 ， 大 家 可 以 决定 ， 是 要 冒 着 高 风险 狮子 大 开口 ， 还 是 宁可 降低 
要 求 ， 图 个 安稳 。 


0 
种 结 采 。 


12 ”关系 数据 库 








如 何 组 织 变化 多 端的 多 变量 数据 ? 


一 张 电子 数据 表 只 有 两 维 数据 : 行 和 列 。 如 果 你 的 数据 包括 许多 方 
面 ， 则 表格 格式 ”很 快 就 会 过 时 。 在 本 章 ， 你 会 看 出 电子 表格 很 难 管理 
多 变量 数据 ， 还 能 看 到 关系 数据 库 ”管理 系统 让 多 变量 数据 的 存储 和 检 
索 变 得 极其 简单 。 











《数据 邦 新 闻 》 项 望 分 析 销 量 


《数据 邦 新 闻 》 是 时 下 盛行 的 一 份 新闻 类 杂志 ， 许 多 居民 都 看 这 份 
杂志 。《 数 据 邦 新 闻 》 给 你 出 了 一 个 非常 特别 的 题目 : 他 们 想 把 每 期 杂 
ee 然后 找 出 在 每 一 期 刊物 上 刊登 文章 的 最 

里 


”他 们 希望 每 一 期 杂志 部 能 尽量 经 济 有 效 ， 要 是 每 一 期 杂志 刊登 一 百 
篇 文章 比 刊登 五 十 篇 文章 带 来 的 销量 并 无 提高 ， 那 他 们 束 不 刊登 这 么 
多 ; 男 一 方 面 ， 要 是 刊登 五 十 访 文 章 比 刊登 十 篇 文革 能 带 来 更 大 销 
量 ， 那 他 们 就 会 刊登 五 十 篇 文章 。 














The Perfect Equation? : Softw 
HF Stats FTW the 


Development 
uld 


和 


Databases 


Nesvly published 
{Bles reveal 

SepnlsSS Now 

CANNeCtions 


Wn 





要 是 你 能 给 他 们 全 面 分 析 这 些 变 量 ， 他 们 将 免费 ”为 你 的 数据 分 析 


业务 做 一 年 的 广告 。 


这 是 他 们 保存 的 运营 跟 踊 数据 


《新 闻 》 给 你 送 来 了 他 们 的 经 营 数据 ， 是 四 张 独立 的 电子 表格 文 
件 。 这 些 文 件 相 互 之 间 有 一 定 ”联系 ， 为 了 进行 分 析 ， 你 需要 弄 清楚 具 
体 有 哪些 联系 。 





源 未 他们 在 对 社 这 


( 前 对 送行 弹 芯 ， 


I 
3 
. 
* 
和 
. 
天 
重 
ww 








这 玉 数 据 条 枪 
有 何 相 吾 联 系 ? 昌 
+ 
bd 
41 
. 
动 动 脑 


为 了 对 比 文章 和 销量 的 关系 ， 需 要 知道 些 什 么 ? 


你 需要 知道 数据 表 之 间 的 相互 关系 


为 了 得 到 《新 闻 》 想 得 到 的 答案 ， 你 创建 表格 ， 拓 此 将 文章 数目 
和 销量 联系 起 来 。 


因此 你 需要 知道 这 些 表格 如 何 相互 关联 。 是 哪些 特定 数据 域 将 这 些 
表格 联系 起 来 的 ? 另外 ， 这 些 关 系 有 何 意义 ? 


这 是 攻 新 闻 》 关于 各 己 
准 护 数据 销 说 法 ， 





SEE 
| 农 件 人 人， 数据 邦 亲 闻 


开本 大 ，Head First 
| 开 季 :关于 我 们 的 省 所 


| 十 这 样 ， 乞 - 划 杂 志 都 刊 父 大 昌文 这 ， 后 一 篇 
| 文章 都 者 一 位 作者 ， 因 此 亦 数 据 中 ， 撤 们 地 
者 和 文章 取 系 起 米 。 当 我 们 编辑 好 二 友 二 
| 后 ， 就 会 给 所 有 的 拖 发 商 打 电话 。 他 作 订 由 外 
| 一 拥 杂 志 ， 后 仆 海 订购 记录 放 在 销售 表 忌 _ 二 
了 扑克 持 市 有 一 厦 “ 得 是”) 起 冰 的 辟 堪 站 
售 出 的 江上 点 的 谷 数 ， 于 芝 以 100 池 = 伴音 位 : 
介 有 时 候 亿 实 得 少 点 。 这 些 位 息 有 幕 芭 上 
一 _ 数 认 邦 新 间 





他 们 要 记录 水 量 资料 ， 国 此 
壳 要 语 许 这 上台 据 表 . 


动 动笔 


用 箭头 和 文字 说 明 每 张 数据 表 中 记录 的 数据 之 间 的 关系 。 


加 1 
洁 ww 党 菇 寺 入 芝 关 生 人 


Er 


本 和 


i 
! 
| 


~ 
3 
2 
4 
日 
大 
? 
于 
" 
10 
38 
Ld 
43 
14 
1 
1s 
17 
世 
雹 
Be 
24 
22 
bs 
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4 
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人 
和 
于 
条 
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2 

CE 
hm NNMNN 
BOO 


靖 久久 各 区 





基本 





在 表格 之 间 画 上 将 头 ， 说 明 一 一 一 


它们 栓 邓 之 周明 关 系 . 


动 动笔 解答 


你 发 现 《数据 邦 新 闻 》 保 存 的 数据 表 之 间 有 何 关系 ? 


和 vvwewum 


每 一 筷 销 重 指 询 是 一 期 杂志 次 一 扎 
印刷 品 〈 通 常 约 00 售 ) .。 


站 革 关押 后 忆 前 忆 实 己 浆 
站 一 罕 同 评 半 贡 要 届 半 信 果 区 


四 
人 





wm 


| 
L! 
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Es 





上 
长 
加 
人 
二 
上 
上 
2 
2 
E 
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了 
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3 
》 
了 
3 
3 
* 
* 
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数据 库 就 是 一 系列 相互 有 特定 关系 的 数 扼 


一 个 数据 库 ”就 是 一 张 表格 或 一 组 表格 ， 表 格 以 茶 种 方式 对 数据 进 
行 管理 ， 使 数据 之 间 的 相互 关系 显而易见 ， 数据库 软件 则 对 表格 进行 管 
理 。 可 供 选 择 的 数据 库 软件 很 多 。 








重要 的 是 要 了 解 附件 中 要 记录 的 那些 数据 之 间 的 关系 。 


、 那么 ， 如 何 使 用 这 方面 的 知识 来 
计算 每 一 期 文章 数目 和 总 销量 ? 


找到 一 条 贯穿 各 种 关系 的 路 线 ， 以 便 进 行 必要 的 
比较 
如 果 手 头 有 一 些 相互 独立 的 表格 ， 但 这 些 表 格 中 的 数据 互 有 关系 ， 


同时 又 有 一 个 关系 到 多 张 表 格 的 问题 需要 解答 ， 那 么 ， 就 需要 沿 着 相互 
关联 的 表格 顺藤摸瓜 。 


镁 个 攻 棉 来 吏 荡 于 你 比 畦 
文章 鼓 习 条 销 重 . 


需要 将 该 十 素 千 
用 合 起 让， 





创建 一 份 穿 过 这 条 路 径 的 电子 表格 


一 旦 知道 自己 需要 哪 几 个 表格 ， 就 可 以 制定 一 个 计划 ， 将 数据 与 公 
式 关联 起 来 。 


在 本 例 中 ， 你 需要 有 一 份 能 对 每 期 文章 数目 和 销量 进行 比较 的 表 
格 。 你 将 需要 写 出 公式 ， 以 便 计算 需要 计算 的 数值 。 


在 下 一 个 球 习 中 ， 笨 


人 





你 将 需要 用 公式 / 
计算 这 些 数 值 . 


练习 


让 我 们 创建 一 个 电子 表格 ， 像 对 开 页 上 的 一 样 ， 然 后 首先 计算 每 一 
期 《新 闻 》 的 “文章 数目 ”。 


打开 “hfda_ch12_issues.csv ”文件 ， 保 存 一 份 副本 ， 以 便 工 
作 。 记 住 ， 可 别 把 原始 文件 搞 乱 了 ! 将 新 文件 取 名 为 “dispatch 


analysis.xls”。 


用 新 名 种 你 褒 过 个 文件 ， 
局 克 琶 二 原 申 数据 。 


米 
证 _ 快 加 下 载 ! 二 


www.headtirstiabs.corm pooks nh fda 
hiaa_ch12 issues.csv 


13 
有 





www.headiirstlabs.comy/bookshfdat 


Ha chi2 articles.csyv 、 
hfda chi2 JJ55sUe5-c5V Tispatch analysis.xls 





团 打开 “hfda_ch12_articles.csv”， 右 击 表格 底部 带 有 文件 名 的 选 
项 卡 。 命 令 电 子 表 格 程 序 将 文件 转移 到 “dispatch analysis.xls ”文档 
中 。 


将 文章 数据 表 检 
复制 到 新 文件 中 . 





图 在 期 刊 数据 表 中 创建 文章 数目 列 ， 填 入 COUNTIF 公 式 计 算 该 
期 刊 的 文章 数目 ， 然 后 对 每 一 期 刊物 复制 和 粘贴 该 公式 。 


将 COUNTIF 公 名 
域 等 在 这 里 。 











A 
issueID 





B 
PubDate Article count 


练习 解答 





你 发 现 每 一 期 刊物 的 文章 数目 情况 如 何 ? 


打开 “hfda_ch12_issues.csv ”文件 ， 保 存 一 份 副 本 ， 以 便 工 
作 。 记 住 ， 可 别 把 原始 文件 搞 乱 了 ! 将 新 文件 取 名 为 “dispatch 


analysis.xls”。 


打开 “hfda_ch12_articles.csv”， 右 击 表格 底部 带 有 文件 名 的 选 
。 命 令 电 子 表格 程序 将 文件 转移 到 “dispatch analysis.xls ”文档 


在 期 刊 数据 表 中 创建 article count (文章 数目 ) 列 ， 填 


入 “COUNTIF” 公 式 计 算 该 期 刊 的 文章 数目 ， 然 后 对 每 一 期 刊物 复 
制 和 粘贴 该 公式 。 


注 个 公 和 高 访 职 电 叶 表格 中 说 
articisz 【 支 沾 】 这 项 十 二 




























v , 和 
WUN THE Mchita_ ericl ott chiss smes cori} 计算 每 一 般 刊 复出 现在 
谍 童 列 旧 中 把 沈 数 。 
| 
]/ AN 
A B C a \ 
issuelD PubDate Article count :| \ 
1 10/24/04 天 全- \ 
2 11/8/04 5 
3 11/23/04 7 
4 12/8/04 7 
5 12/23/04 a 
6 1/7/05 7 
7 1/22/05 7 
8 2/6/05 7 
3 2/21/05 6 1 
10 3/8/05 5 2 1 
11 3/23/05 9 3 1 
12 4/7/05 7 4 1 
13 4/22/05 6 3 t 
14 S$/7/05 6 3” 
15 5/22/05 6 9 2 
16 6/6/05 7 3 2 
18 17 6/21/05 10 20 2 
2 2 
6 53 3 
4 3 
35 3 
16 3 
27 3 
38 3 
二 机 





~ 


洁 是 新 闻 入 全 折 电 他 表格 守 沪 


站 ， 评 
aetictus & 地 坦 沈 “Ts. qe 
eu 


一 一 一 






庄 ! 站 料 妊 重 异 让 匡 加 草 电 于 灰 楼 中 时 ， 记 佳 ， 访 由 献 富 
吕 是 代 来 塌 启 计 豆 ， 示 代 革 金 疾 ， 八 部 要 玉 你 按 杂 志 信 就 
计 兽 博学 ， 不 需要 接 全 其 汗 前 ， 





这 是 4 新闻 3》 总 搞 。 






听 上 去 不 错 .…… 让 我 们 将 销量 添加 到 列表 中 ! 


练习 


在 所 创建 的 电子 表格 中 添加 一 个 总 销量 域 。 
人 快 米 下载! 米 - 


www.headfirstlabs.com/books/hfda/ 
hfda_ch12_sales.csv 


复制 hfda_ch12_sales.csv 文件 ， 使 其 成 为 dispatch analysis.xls 
中 的 一 个 新 选项 卡 。 在 用 于 计算 文章 数目 的 同一 个 工作 表 中 ， 新 建 
一 个 Sales (销量 ) 列 。 















Cc 
Article count Sales 





B 
PubDate 
1 10/24/04 
2 11/8/04 
3 11/23/04 
4 
5 








12/8/04 
12/23/04 
1/7/05 


ry 
5 
7 
4 
8 


o 





增加 这 一 列 ， 将 六 
公关 填 在 这 心 ， 


圆 ” 使 用 SUMIF 公 式 计 算 期 刊 ID1 (issueID 1) 的 销量 数据 ， 将 公 
An 
工 No 


练习 解答 


你 用 了 哪个 公式 将 销量 添加 到 电子 表格 中 ? 


证 公 玄 砷 电 期 判 TIONHIF 公 训 风 第 一 个 自 变 重读 末期 刊 。 
et 


FUMING fra abs oot. hashca_iereet a Ra Hoee ele oC 







WENMNMAWNE 


第 二 个 自 裤 晤 该 了 你 希 坚 计 凌 
其 销量 的 半 完 捧 乔 . 





趾 三 个 省 宰 量 指 击 称 表演 
证 蕊 网 实际 销量 - 





通过 汇总 将 文章 数目 和 销 


这 就 是 你 圾 要 的 电子 表格 
数目 与 期 刊 销 量 之 间 的 关系 。 


量 关 联 起 来 


可 以 表明 《新 闻 》 每 一 期 刊登 的 文章 









uN 


Sepwvnw 









着 上 上 寺 氢 好 。 节 这 要 是 画 成 区 点 
立会 慢 容 易 摆 解 一 点 、 剑 听 说 过 
毅 风 国 吗 ? 


Er 


汪汪 天 有 





[3 


GxteEsEeEsE 
六 


ww 4 
= pe 


当然 ! 让 我 们 给 他 来 一 张 .…… 


动 动笔 


这 个 更 数 告诉 你 尺 的 工作 目 
录 ， 即 查找 文件 的 地 方 ， 






> getwd() 
[1] "Users/headfirst" 


> 


在 RR 的 工作 目录 下 将 电子 表 档 
数据 文件 保存 为 csg 文 件 ， 


打开 R， 输 入 getwd0 指 令 ， 求 出 R 保 存 数据 的 位 置 。 然 后 ， 在 
电子 表格 中 找到 “File > Save As...”(“ 文 件 > 另存 为 ..….. 2 以 
目录 下 将 该 数据 保存 为 CSV 文 件 。 
执行 下 列 指令 ， 将 数据 加 载 到 R 中 : 


dispatch <~ read.csv{"dispatch analysis.csv", 
header=TRUE) 


将 文件 人 滞 名 为 “dispatch analysis .cs0 沪 
团 ”加 载 数据 后 ， 执 行 下 列 函数 ， 看 到 一 个 优化 值 了 吗 ? 


plot {Sales~JjJitter{Article.count),data=sdispatch) 


入、  _ 根 快 你 就 会 看 到 


jitter 网 作用 …… 


动 动笔 解答 
你 在 所 加 载 的 数据 中 找到 最 优 值 了 吗 ? 


heaqd 措 天 星 示 证 刚才 加 襄 捕 
痢 穿 …… 检查 一 下 总 站 会 音 . 


使 用 这 个 的 夺 拉 伺 晴 ED 文件 加 载 到 天 宁 。 



















> head(dispatch) 
issueID PubDate Article.count Sales 










1 1 10/24/@4 7 2227 
2 2 11/8/064 5 “3 
3 3 11/23/@4 7 2252 
4 4 12/8/04 7 218@ 
5 5 12/23/04 8 2894 
6 6 1/7/05 7 2006 






plot(Sales~jitter(Article.count), data~dispatch) 






记 是 创建 表 点 赔 
肪 指令。 








Ler 指 村 信 数 密 中 蒲 训 了 一 化 蝇 埋 ， 使 数 
禄 相 训 如 随 ， 以便 易于 让 家 总 图 上 识别 ， 


政体 plot 公式 中 易 炮 名 与 head 
该 一 诡 ， 系 你 加 ji 进行 让 同 的 指 二 下 机 下 于 东 蜀 返 南 二 委 - 
办 ， 结果 是 处 是 祖 章 看 歪 生 7 


民 训 情妇 玫 办 要 意 式 章 远 民 ， 
1 


县 。 .让 珀 幸 音 得 司 证 而 50 蔬 好 避 ， 
抵 如 沪 池 于 本姓 避税 得 上 秆 元 其 了 _ 








得 到 本 ， 随 交工 生 
愉 坦 二 和 对， 钙 重 马 
茂 冰 上 对 局 


二 于 及 所 新 过 12 秆 吉 条 已 元 也 和 潍 高 销 重 ， 但 
主攻 由 滨 下 50R 全 村 荫 铺 重 ， 字 七 于 所 
1 可 间 3 应 名 福利 站 ?0 第 站 训 汀 主 杂 . 





» op 中 化 个 作 * 征 认得 对 沪 走 浅 
了 T1300 呈 、 蕊 僻 各 一 点 号 要 六 


看 来 你 的 散 扣 图 确实 画 得 很 好 


| 流 流 i。 a 
| “1 站 J 饭 亲 二] 一 人 
| 

| 议 想 

| jg 这 的 确 对 我 了 J 育 得 六 en 

| 见 分 析 & -相助 ， 和 本 夹 训 二 | 

| 冰 斌 A 几 ， 信 全 A 

| 这 机 和 屋 . ee 村 完 宇 这 实 


着 幸 你 到 省 报 多 工作 
要 俱 …… 幸 种 ， 





世上 没有 傻 问题 


问 : 人 们 确实 会 像 这 样 把 数据 存储 在 相互 关联 的 电子 表格 中 吗 ? 


答 : ”确实 如 此 。 有 时 候 你 的 数据 是 从 更 大 的 数据 库 中 节选 的 ， 有 
时 则 是 人 们 像 上 文 那样 手工 关联 在 一 起 的 。 


问 : ”基本 上 ， 只 要 公式 能 够 读 取代 码 ， 就 有 可 能 通过 电子 表格 把 
各 种 数据 联系 起 来 ， 只 是 繁 珊 一 所。 

答 : 嗯 ， 不 是 每 次 都 那么 幸运 得 到 数 
据 ， 并 且 这 些 数据 通过 精巧 的 程序 代码 相互 关联 。 通 常 得 到 的 数据 比较 
混乱 ， 为 了 让 电子 表格 和 公式 同时 生效 ， 需 要 做 一 些 数据 清理 工作 。 下 
一 章 将 更 详细 地 介绍 这 方面 的 内 容 。 


问 : ”有 没有 能 把 来 自 不 同 表格 的 数据 关联 在 一 起 的 更 好 的 软件 构 





复制 并 粘贴 所 有 这 些 数 据 是 件 痛 兰 的 事 


每 次 有 人 查询” 数据 〈 即 提出 关于 数据 的 问题 》 时 都 要 做 一 抽 这 个 
过 程 也 太 烦 人 了 。 


而 且 ， 不 是 说 计算 机 可 以 完成 所 有 这 些 麻烦 事 吗 ? 











用 某 儿 入 法 多 护 赴 操 关 隶 ， 让 孝 据 查 
调 更 窗 则 这 素 是 页 人 说 栅 哆 ? 可 我 





用 关系 数据 库 管 理 关 系 

关系 数据 库 管理 系统 (RDBMS) 是 最 重要 最 有 效 的 数据 管理 方法 
之 一 。 关 系数 据 库 是 一 个 大 课题 ， 你 对 它 了 解 越 深 ， 就 越 能 发 挥 存储 在 
其 中 的 数据 的 作用 。 








重要 的 是 ， 要 知道 ， 数 据 库 所 要 求 的 表格 之 间 的 关系 部 是 量化 ” 关 
数据 库 并 不 介意 期 刊 如 何 ， 作 者 如 何 ， 它 只 知道 一 份 期 刊 有 多 位 作 


RDBMS 中 的 每 一 行 都 有 一 把 钥匙 ， 通 常 称 为 ID (标识 ) ， 钥 匙 可 
以 确保 这 些 量化 关系 不 被 破坏 ， 一 旦 建立 了 RDBMS， 请 注意 : 精心 构 
造 的 关系 数据 就 会 成 为 数据 分 析 的 宝库 。 


《数据 邦 新 闻 》 有 一 个 数据 库 ， 要 完成 上 文 进行 过 的 分 析 束 容易 
得 多 。 


《数据 邦 新 闻 》 利 用 你 的 关系 图 建立 了 一 个 
RDBMS 

现在 《新 闻 》 可 以 将 所 有 的 电子 表格 载 入 一 个 真正 的 RDBMS 中 
了 。 你 的 思维 成 果 ， 加 上 总 编 对 数据 的 解释 一 也 就 是 数据 库 结构 ， 形 
成 了 下 面 这 个 关系 数据 库 。 







颖 然 已 经 找 出 了 最 住 立 章 数 自 ， 就 应 访 
育 清 护 哪 几 位 作者 最 县 殊 迎 ， 这 和 样 就 能 保 
证 每 一 期 都 刊登 他 们 胸 文 章 ， 你 可 以 计算 
一 下 网 站 上 每 位 作者 入 篇 文章 网 点 击 率 和 
评论 结果 。 












动 动笔 


下 面 是 《数据 邦 新 闻 》 数 据 库 的 架构 ， 圈 出 你 需要 的 表格 ， 将 这 些 
ee 
到 2 。o 


然后 在 下 面 画 出 这 个 表格 ， 表 格 中 显示 用 于 男 散 点 图 的 几 个 域 。 


WW olesglano O—w 








oe 
| | ssunlIC om | 
| Auth oo 
| 1 
‘5 ww 
运 个 入 是 新 噬 ， a 
A/ Comment D | 
/ 





| 
法 是 新 名 桂 … 列 业 了 。 / 


需要 鬼 表 若 ， 7 


为 了 计算 某 个 作者 在 网 上 的 点 击 率 和 评价 情况 ， 以 便 以 此 评估 作者 
的 受 欢迎 程度 ， 你 需要 把 哪 几 个 表格 组 合 在 一 起 ? 


你 常 要 将 数据 库 中 脑 计 三 个 
未 格 组 合 在 一 个 素 窜 中 


在 上 决 使 月 胎 素 接 中 ， 翅 一 列 
代 束 一 倍 良 刊 ， 值 更 在 ， 意 一 
列 灌 表 一 菠 文 章 ， 


WhaqlesalerD Oe 


| 数据 坛 
| 鞭 据 荆 
| 数据 域 























| 负重 
SalalD Ow 
WwWhclesalerID 人 一 
| 数据 域 










人 
AricelD Ow | 
IssuslD 个 一 

muterpoe | 
| 网 上 只 击 高 
Coammenllb 全 一 个 







网 站 评论 | 
CommanilD 了 一 
ArfkclelD 个 一 六 





fnn 是 这 和 心 假设 系 格 中 梧 划 1 荡 
和 第 2 萄 葡 章 顷 作 者 . 





《数据 邦 新 闻 》 用 SQL 捉 取 数据 


SQL 是 Structured Query Language 的 缩写 ， 即 结构 化 查询 语言 ， 是 一 
种 关系 数据 库 检索 方法 。 你 可 以 通过 输入 代码 或 使 用 能 创建 SQL 代码 的 
图 形 界面 ， 令 数据 库 回 答 你 的 SQL 问题 。 


沪 吕 欣 据 从 曲 党 实 水 : 


四 出 的 杰 汉 扮 淋 ， 米 
快 来 下 载 ; 


Wyyv. heacirsilabs.convbookehfdal 
让 fos chi2 srticietltsComments.csv 
RK 
、 





这 奶 一 小 和 或 半山 3Q3 坦 说 ， 


他 姓 这 个 类 据 柄 过 询 更 才 这 」 
的 实 襄 肚 为 委 夸 . 








你 并 不 是 非 懂 SQL 不 可 ， 但 懂得 SQL 绝 不 是 坏事 。 重 要 的 是 ， 了 解 
数据 库 中 的 各 个 表格 ”及 这 些 表格 的 相互 关系， 进而 懂得 如 何 提 出 正确 


的 问题 。 


练习 


使 用 下 面 的 指令 将 hfda_ch12_articleHitsComments.csv 电子 表 
格 加 载 到 R 中 ， 然 后 用 head 指 令 查 看 数据 : 


个 用 这 个 指令 时 和 劳 
再 。 TT: 站 GD 
SItILCILCEIL=SZOmrmcE= 与 “一 -2caQucsY 疏 要 过 搜 冬 隧 网 。 


国人 


ifrda_ 1 2tt1z1en 二 SOImEtS CS 3eader=TRIT3 _ 


这 次 我 们 将 用 更 有 效 的 函数 创建 散 点 图 。 用 下 面 这 些 指令 加 
载 lattice 数 据 包 ， 然 后 运行 xyplot 公 式 ， 绘 制 lattice 散 点 图 。 


ibraryilal...iie! 


xyElot iwed3lis~uormertCount lautliorName, ata=a--12_eH-tsCo-uner:-31 
一 个 间 季 下 \ 
丰 局 | 4 才 一 A 
) 
让 就 是 多 载 入 鬼 数 据 
息 (data Brame) .， 


根据 这 种 计算 方法 ， 哪 些 作者 表现 最 好 ? 


练习 解答 


从 散 点 图 上 看 出 什么 了 ? 是 不 是 某 些 作 者 能 带 来 更 大 销量 ? 
将 hfda_ ch12_articleHitsComments.csv 电子 表格 载 入 R。 


这 次 我 们 将 用 更 有 效 的 函数 创建 散 点 图 。 用 下 面 这 些 指令 加 
载 "lattice” 数 据 包 ， 然 后 运行 xyplot 公 式 ， 绘 制 lattice 散 点 图 。 
library(lattice) 


xyplot (webHits~ 
commentCount|authorName, data=articleHitsComments) 


~ 
> head(orticleHitsComents) 
articleID authorName webHits commentCount 
1 Destiny Adams 





仿 个 特 呈 告诉 mp 江 涡 邹 擂 站 | 
作者 名 训 俗 秀 训 加 如 答 ， | 
过 个 禹 大 加 就 1atkice 数 据 包 ， 这 出 数据 与 你 撕 


由 中 了 攀 旭 括 一 致 ， 





_ 这 个 责 点 图 集合 显示 出 每 菏 立 章 鲍 网 站 点 击 率 
A 和 评论 决 数 。 并 接 作 者 分 碍 。 


起 20 9 析 











Paul Semenec 
ES 
™ 
] 
RE 这 些 况 络 视 计 舍 
人 布 在 考 个 加 上 
这 和 塌 闪 汽 者 朱 业 
疯 各 站 机 间 
/ 
评论 次 鹤 
根据 这 种 计算 方法 ， 哪 些 作 者 表现 最 好 ? 
很 明显 ，Rafaela Cortez 的 表现 最 好 ， 她 文章 点 击 率 都 在 3000 
以 上 上， 日 大 部 分 文章 20 多 篇 评论 ， 7 很 喜欢 她 。 其 
表现 十，Destiny 和 Nicole 表 现 较 好 ，Niko 的 表现 类 


很 散 ， 而 Brewster 和 Jason 则 显得 不 太 受 欢迎 。 


这 是 起 编 堵 你 入 后 
一 洁 仿 御 六 评 价 . 


We 


ES 


| 
| 
| 
| 
| 
| 
| 
| 
| 
| 


发 华人 ， 葵 据 帮 新 凶 
主题 : ” 头 于 我 们 的 数 语 


4， 灾 江 我 旋 惊 了 ， 我 一 言 觉得 Nafaelo 和 和 
Destiny 是 我 们 的 明 旱 作家 ， 可 没 想 划 领先 议 
么 者 。 得 大 大宇 所 他们 | 这 上 芋 信 息 会 让 我 们 多 
出 版 物 页 庆 针 对 性 ， 司 是 兹 更 如 二 奖励 作 天 罗 
委 吏 。 谢 说 。 


- 一 数据 厘 订 闻 





RDBMS 数 据 可 以 进行 无 穷 无 尽 的 比较 





你 刚才 根据 《新 闻 》 的 RDMS 数 据 画 出 的 复杂 图 形 不 过 是 冰山 一 
角 ， 各 家 公司 的 数据 库 会 很 庞大 ， 绝 无 虚 言 。 作 为 分 析 师 ， 关 系数 据 库 


意味 独 你 可 以 进行 巨 量 比较 。 


济 一 福 ， 上 几何 诺 说 在 绕 突 
_ 鹏 海洋 中 进行 雪 析 

















人 六 各 《数据 间 新闻》% 的 数据 站 杀 雹 
和 -与 砷 亲族 权 出 过 和 去 基 运 。 筷 其 家 


热 嫩 产 很 容 钨 不 双流 特 起 孙 。 


RDBMS 能 按照 你 的 心思 把 数据 关联 在 一 起 进行 有 效 的 比较 ， 关 系 


数据 库 让 分 析 师 美梦 成 真 。 


你 上 了 封面 


你 的 工作 让 《数据 邦 新 闻 》 的 作者 和 编辑 们 惊奇 不 已 ， 他 们 决定 把 
你 放 在 要 闻 版 ! 干 得 漂亮 。 猜 猜 看 ， 写 文章 的 会 是 谁 ? 













礁 忆 相信 ， 栽 们 一 向 有 过 臣 
虱 所 ， 导 妇 哺 着 加 利和 出 ， 太 
聂 谢 了 ， 


A 
\ 


- \ 
f : a p 
A 





13 ”整理 数据 
井然 有 末 


省 一 切 都 并 并 有 条 时 ， 
载 胸 工作 最 有 成 效 。 





乱糟糟 的 数据 毫 无 用 处 。 


许多 数据 搜集 者 需要 人 花 大 量 时 间 整 理 数据。 不 整齐 的 数据 无 法 进 
行 分 割 、 无 法 人 套用 公式 ， 甚 至 无 法 阅读 ， 被 人 们 视而不见 也 是 常事 ， 对 
不 对 ? 其实， 你 可 以 做 得 更 好 。 只 要 眼前 清楚 地 浮现 ”出 希望 看 到 的 数 
ee 地 整理 数据 ， 化 腐 
为 神 可 。 








刚 从 停业 的 竞争 对 手 那 儿 捅 到 一 份 客户 名 单 


Head First 猪 头 公 司 是 你 的 最 新 主 顾 ， 该 公司 从 一 家 停业 的 竞争 对 手 
那儿 搞 到 了 一 份 求职 人 员 名 单  。 为 了 得 到 这 份 名 单 他 们 花 了 大 把 钞 
0 0 0 


这 份 名 单 会 是 一 个 金 矿 …… 











www.headfirstlabs.com/books/hfda/ 
hfda ch13 raw data.csy 





”EE Mea Chl gw gs -NE Breed 


9 ome | Bier Ppl Falat De 








看 达旦 ! 了 PerponsDar rstNameeLastNemeazlpwpPhoneecalNDaTime 


2 JR7anAleniaahasrmusxfID 127)ensl14228716-594-240Sa4252801/O1/05 12:32 
| 3 98"BrendensRasmussllD 58jong10015n546-512.72584325 王 01/02106 13:17 
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| 23 136mDeborahetLalID 196jmbw303028718-405-418441273801/11108 12;46 
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29 I0e"AliyanmottmandiD 10)7113558517.513.642154279801/15/08 08.44 
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太 糟 料 了， 数据 乱 糟 粮 ”的 ! 现在 这 副 样 子 客户 没 法 用 ， 这 正 是 他 
们 找 你 的 原因 。 你 能 帮 上 忙 吗 ? 


数据 分 析 不 可 告 人 的 秘密 


数据 分 析 有 一 个 不 可 告 人 的 秘密 一 一 作为 数据 分 析 师 ， 你 花 在 数据 
整理 上 的 时 间 多 过 数据 分 析 上 的 时 间 。 到 手 的 数据 往往 算 不 上 井 井 有 
ee 


可 是 ， 作 为 献 招 今 新 图 丛 





动 动笔 


该 怎么 从 头 开 始 ”处理 这 些 乱 哄 哄 的 数据 呢 ? 看 看 下 面 几 种 可 能 的 
办 法 ， 写 出 每 种 办 法 的 优 缺 点 。 


开始 重新 输入 。 


团 问 问 客户 整理 数据 的 目的 。 


图 写 出 一 个 公式 ， 整 理 数据 。 


你 选择 第 一 步 做 什么 ? 
加 J 














I 可 此 户 。 


Head First 钞 头 公 司 想 为 目 己 的 销售 团队 搞 到 这 份 
名 单 












我 们 党 用 一 稚 由 话 号 码 清 单 ， 这 皇后 站 关外 党 加 
队 就 能 给 直 人 入 记 议 怪 选 入 林 申 话 。 这 个 刺 识 者 名 
亲 是 汽 们 轰 老 对 王 崩 过 跑 ， 我 们 扑 成 十 内 这 泌 人 大 
入 下 一 生产 工作 药 工 亲 公 司 . 





虽然 原始 数据 乱七八糟 ， 不 过 ， 看 来 他 们 只 想 抽取 姓名 和 电话 号 
码 。 这 问题 倒 不 大 ， 让 我 们 动手 .…… 
动 动笔 


下 面 的 数据 似乎 是 一 串 名 单 ， 按 照 客户 的 描述 ， 我 们 需要 的 正 是 
它 ， 你 需要 做 的 是 清晰 地 排列 这 份 名 单 。 


按照 希望 看 到 的 数据 格式 ， 画 一 张 图 ， 显 示 数 据 列 和 数据 样 例 。 








4 ppesuraarellD 36)W150139136-39193200k4254w01102108 14:54 
ss a 四 Hemmwni) AW SN M04 74 n/N /ne 1 32 
赐 ，…-… “Tme" 
和 “callrp" 
总 笠 估 过 实际 
基 系 。 
ED 3 45pvOmanaRualiD 45]het1631n545-516- 3070¢4363901/03/06 二 区 
在 这 心 填 
入 六 标题 
走访 半 画 出 理 
报 的 数据 特 局 . 


og, 





着 入 水 行走 据 拉 

例 ， 示 壳 妆 多 看 

台 莫 上 喜 据 外 浊 ， 
动 动笔 解答 


你 希望 整理 好 后 的 数据 是 什么 样子 ? 


伏 可 已 看 到 想 厦 到 的 销 息 。 卸 相 
计划 信息 都 捕 在 # 列 宙 …… 


i 
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本 136wJaccbywCcf1ID 156)okMI0045n317.£08"619604250001 /C33 15:52 

了 1390QuintensHubboliD 139)rdm Do168!7.637.225684157W01/04/ 3 13-19 
B75 fernpgrone riD 75)ellni1693m91L7- B43 490594253P91A05ie6 0919 


拿 部 拆 汝 阅 觉 后， 可 以 接 财 据 
江 进 从 株 片 . 过渡 ， 芝 将 数据 时 
入 邮 和 从 合并 程 本 .网 页 等 。 


必 频 笠 洒 定 祷 号 两 …… 
这 对 鳃 凡 困 了 疏 理 头 敬 要 1 


SG | 


这 林 9 减 直 用 区， 可 访 
确信 数据 网 谁 一世 - 


最 新 消息 ! 数据 人 然 混 
筷 ， 我 们 说 怎么 收复 呢 ? 
D 
q 





赁 想象 无 法 让 数据 井井有条 ， 此 话 不 假 。 不 过 ， 要 择 弄 混乱 的 数 
We 。 让 我 们 看 一 看 修复 混乱 数据 的 常规 策略 
5 后 下 验 es 





清理 混乱 数据 的 根本 在 于 准备 


这 是 不 言 而 喻 的 ， 不 过 ， 和 做 其 他 数据 工作 一 样 ， 整 理 数据 必须 首 
先 从 复制 原始 数据 开始 ， 这 样 才 方便 回头 检查 。 








一 旦 你 确定 了 你 自己 想 要 得 到 的 数据 外 观 ， 束 可 以 继续 从 混乱 中 分 
状 出 数据 模式 。 


最 后 要 做 到 的 是 回头 逐 行 修改 数据 一 一 这 可 要 大 费 周 扩 ， 所 以 要 是 
能 够 识别 重复 出 现 的 混乱 符号 ， 就 能 写 出 公式 和 函数 ， 然 后 利用 各 种 村 
式 整 理 数据 。 


一 旦 组 织 好 数据 ， 束 能 修复 数据 


然后 就 可 以 利用 手头 的 数据 模式 开始 认真 修复 数据 。 你 会 及 现 ， 这 
个 过 程 常 常会 反复 ”及 生 ， 即 ， 要 一 次 义 一 次 地 重新 构造 和 整理 数据 ， 
直到 得 到 所 需要 的 结果 。 








动 动笔 
首先 ， 让 我 们 拆 分 数据 域 。 有 模式 可 用 于 拆 分 各 个 域 吗 ? 


i A E < D 三 E 时 I 
E31| PersoriDfPFirstNamenLastNarmer2zliPpyphcnesCcallIdsTeme 

527F“AIGxJHFa5rmwusifID 127jSnwi3422H718_ 534 324031425Dy01AO1/05 12:32 

3 530F'"Brandernpfasrwussl1D SO enmio0lS ns6-F12- 729084253401 /02/06 13:17 

a FBeaurWarellD 4)y1001 9645- 3591-992554254801/02/08 14:54 

5 2278"AloxIanFallD 127) xmizxsenal1422H7158.534.2403t425Se01M3MD8 15:372 

5 1S6n*Jaccbys#CollD 156jok81004534917-808-5186:447255s01/03/05 1552 
7 
y 
9 


~ 


9 "QuintentudbellD 1390#100164917-687-2255525 7#01/04/08 13:19 
eRemingtonsi err(ID 75]ellw116938917-843-460044258401/05/00 09;09 
FPecrospoyllD 91 ney1000s212-498-656244259801/05/03 09:10 











了 |127mwAlexlaeRasmusslID 127)en#114224718-534-2403#4252801/01/08 12:32 
_3 389^BrendensRasmussfiD 98)en#y10015g646-812.7298#4253#01/02/08 13:17 
34fgnBeaugWare{1D 94)#10013#646-391-9926#4254#01/02/08 14:54 


127#"AlexlaxnRallD 127)smussen#11422#718-534-2403#4255#01/03/08 15:32 
1564*Jacoby#Co{ID 156)okM10045H917.808-618614256401/03/08 15:52 
139wvQuintenpHubbalID 139jrde10016%917-687-2256H4257HW01/104/08 13:19 
754*Remington#Farr(ID 75)ell#116934917-343-4608k4258H01/05/08 09:09 
9in*pedrospay(iD 91)ne#10005#212-498-6362#4259#01/05/08 09:10 





将 # 写 作为 分 隔 符 


Excelj 有 一 个 称 手 的 工具 ， 当 各 个 数据 域 以 某 个 分 隅 符 《〈 即 ， 将 域 
与 域 隔 开 的 字符 ) 分 隔 时 ， 这 个 工具 可 以 将 数据 拆 分 为 几 个 列 。 选 择 A 
列 数 据 ， 按 下 Data〈 数 据 ) 选项 卡 下 的 “Text to Columns”( 文 本 转变 为 
列 ) 按钮 .…… 








Te “eel ord hen er rer fw Ye cete 9 De 
了 1 


Be rr home Pi, he hor sin he el rd re hrs ren ci 


上 we ene em wo 


ee 现在 ， 同 导 已 经 启动。 第 一 步 先 告诉 Excel 数 据 以 分 阳 符 分 
开 ; 第 二 步 告 诉 Excel 分 隔 符 即 # 池 符 。 单 击 “Finish”(〈 完 成 ) 后 结果 如 何 
呢 ? 


Excel 通 过 分 隅 符 将 数据 分 成 多 个 列 


小 事 一 桩 。 只 要 各 个 数据 域 之 间 有 分 隔 符 隔 开 ， 使 用 Excel 的 
Convert Text to Column Wizard (文本 转变 为 列 向 导 ) 会 非常 方便 。 


不 过 这 些 数据 仍然 有 问题 。 例 如 ， 姓 和 名 的 域 中 都 有 一 些 多 余 的 符 


, 须 想 个 办 法 除 挤 这 些 多 余 的 符号 ! 


绍 然 数据 已 经 拆 玉 ,就 可 
更 音 数据 已 经 济 巩 以 相 所 常生 仿 别处 锂 了， 
地 今 训 了 郊 列 . 


pe 一 | = 也 - 
EECE 


Vee -上 产 





请 怎 汉 傅 有 Finstheme 





( 睹 ) 烧 呢 ? 
sl $e? Ml 41 
et 
"Gant/Namwe” 【和 名) 境 性 况 又 此 何 了 
a 一 A 
动 动 笔 


你 会 使 用 什么 模式 来 修复 FirstName 列 ? 






















流 个 宽 得 熏 这 帘 客 半 是 
径 脚 震 。 用 别 的 次 桂 ， 
| 了 各 8 
|FwrstName FirstName 
| *Alexia Alexia 
| “srondon renden 
"Beau Spay 
I"*Alexia Alexia 窝 要 用 - 华 雪 人 镍 工 具 条 
siacpby Jacoby 绯 这 是“ 。 
AQuinten Quinten 
| "Reminaton Rermingten 
| Apcdro pedro 
"Clienne 引 lanna 
| "arron Denen 
"Rebekah Sebokah 
| ~Jaqueline jaquelnre 
| “Porter Porter 
a [人 onavan Donavan 








\ 
对 处 都 是 这 个 守 花 ， 


连连 看 


将 Excel 公 式 与 功能 搭配 起 来 。 你 觉得 可 以 用 哪 种 功能 整理 名 学 


列 ? 


FIND 

LEFT 

RIGHT 

TRIM 

LEN 
CONCATENATE 
VALUE 
SUBSTITUTE 





求 单元 格 的 长 度 。 

求 以 文本 格式 存储 的 数字 的 数值 。 

取 单 元 格 右边 的 字符 。 

以 指定 的 新 文本 蔡 代 单元 格 中 不 需要 的 文本 。 
告诉 你 在 单元 格 中 的 哪个 位 置 香 找 搜索 字符 串 。 
取 两 个 值 ， 然 后 合并 在 一 起 。 
取 单 元 格 左边 的 字符 。 
删除 单元 格 中 的 空格 。 








将 Excel 公 式 与 功能 搭配 起 来 。 你 觉得 可 以 用 哪 种 功能 整理 名 字 


列 ? 


FIND. 求 卫 元 者 的 长 只。 


LE 求 [文本 抬 式 皮 清 晶 窗 个 的 笋 但 ， 

RIGHT 5 取 单 元 辜 布 边 的 字 祥 。 

TRIM 以 指定 的 街 文本 替代 单元 梯 中 不 帘 贤 的 

文 李 ， 

LEN 由 你 在 单 训 挡 中 的 殖 个 位 置 得 乒 搜 索 他 
福 11。 

CONCATENATR 取 西 个 值 ， 然 瞩 合 外 在 起， 

VALL 取 昌 元 特此 过 的 字符 。 


CSUBSTITUTE 用 除 单元 隆 1 的 窑 格 。 
这 喜 是 我 们 慨 用 隐 公 襄 ， 用 它 梧 心理 换 撞 


名 称 列 中 的 ““” 字符 ， 


用 SUBSTITUTE 符 换 “A 人 ”字符 


在 单元 格 H2 中 输入 下 面 公 式 可 修复 FirstName 域 : 
=SUBSTITUTE(B2,“A”,) 











在 这 郊 纺 入 全 各。 


圆 ”复制 这 个 公式 ， 在 H 列 中 从 头 到 尾 粘贴 这 个 公式 。 结 果 如 何 ? 
世上 没有 傻 问 题 
问 : ”只 有 这 些 公式 可 用 吗 ? 要 是 我 想 取 出 单元 格 左右 两 边 的 字符 
拼接 在 一 起 ， 该 怎么 做 ? 似乎 没有 这 种 公式 。 
答 : 是 没有 ， 不 过 你 可 以 将 文本 函数 嵌 套 起 来 用 ， 这 样 就 能 完成 
更 复杂 的 文本 处 理 。 例 如 ， 如 果 想 取出 单元 格 “A1” 中 的 第 一 个 和 最 后 一 
个 字符 拼接 在 一 起 ， 可 以 使 用 下 面 这 个 公式 : 


CONCATENATE (LEFT(A1, 1), 
RIGHT(A1, 1)) 


问 :， 这 么 说 我 可 以 把 一 大 堆 文本 公式 能 套 在 一 起 ? 


答 : ”可 以 ， 这 对 于 处 理 文本 很 有 效 。 不 过 有 一 个 问题 ， 要 是 数据 
实在 太 乱 ， 再 把 一 大 堆 公 式 骨 套 在 一 起 ， 整 个 公式 就 几乎 没 法 辨认 了 。 


问 : ” 管 它 呢 ， 只 要 有 效 就 行 ， 我 没 打算 辨 认 。 


答 : ” 呵 ， 公 式 越 复杂 ， 就 越 需 要 小 心 调整 ， 公 式 越 难 辨认 ， 就 越 
难以 调整 。 

问 :” 那 该 怎么 回避 繁复 而 难以 辨认 的 公式 呢 ? 

答 : ”不 要 把 较 小 的 公式 合并 成 一 个 大 公式 ， 而 是 把 小 公式 拆 成 几 
个 不 同 的 单元 格 ， 再 用 一 个 最 终 的 公式 将 所 有 单元 格 合并 起 来 。 通 过 这 
种 方法 ， 假 如 有 哪里 不 对 ， 束 很 容易 找 出 需要 调整 的 公式 。 

问 : ”我 打赌 “R” 有 更 好 的 文本 处 理 办 法 。 


答 : ”有 是 有 ， 不 过 干 嘛 要 费事 去 学 呢 ?” 要 是 Excel 的 SUBSTITUTE 
公式 能 够 完成 任务 ， 就 省 省 时 间 吧 ， 别 管 R 怎么 做 了 。 








所 有 的 “ 姓 ” 都 整理 好 了 


利用 Excel 的 SUBSTITUTE 选 取 每 个 “ 姓 ” 中 的 “人 符号 ， 代 之 以 通过 
两 个 引号 〈“) 指定 的 空 内 容 。 


其 他 许多 软件 都 是 通过 以 空 内 容 丛 换 见 余 字 符 来 实现 删除 元 余 字 
符 。 


访 星 归 正 址 
A 








加 4 
这 是 原 亲 的 
2 
性 ” 黔 据 。 
<4 
ps 
24 
~ = 4 
PN 
aa 
Dea 
4 
sm 
0 
‘<0 
am 
人 这 忆 值 都 是 
«xy oe A 
ene SUBSTITG3 呈 分 
EDIT 9 
Me mm Am 共 的 泣 忠 结 加 
B10 0) YA a VN TCR 
WE NA A YVES IE Petenh 
dk 34 1 SI TN 让 0 tory 
HME MS C45 W000 B04 Le 
Wr pap Pe N00 90 Amah 
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为 了 求 远 只 除 严 米 的 “ 姓 ” 数 袍 ， 复 
机 FF 到 ，。 其 去 扫 行 “Paste Special > Valuea” 
1 法 汉 狂 杭 贴 数位) ， 效 这 些 什 转变 成 引 6 一 一 光 你 衣 原 此 二 件 自 则 险 
文本 ， 帮 直下 是 公 式 党 与 芋 东 。 随 后 由 可 划 万 一 出 锋 ， 还 能 重新 开具 
除 Eiz=sLRKaru 列 ， 这 瑟 现 种 忆 看 不 到 计 厌 


Wn 9 
的 符 导 了- 








嘛 。“ 如 ”网 这 种 模式 容易 对 付 ， 因 六 
只 有 一 个 和 开 立 窗 符 要 出 除 。 “名 ”就 疤 
了 ， 搁 式 入 烦 得 多 ， 





练习 


让 我 们 再 用 用 SUBSTITUTE， 这 次 要 修复 的 是 “名 ”。 


首先 从 一 片 混乱 中 找 出 数据 模式 。 你 想 让 SUBSTITUTE 蔡 换 什 么 ? 
句法 结构 如 下 : 





=SUBSTITUTE (参考 单元 格 ， 被 蔡 换 的 文本 ， 用 于 蔡 换 的 文本 ) 
你 能 写 出 一 个 有 效 的 公式 吗 ? 


能 用 SUBSTITUTE 修 复 LastName 域 吗 ? 


SUBSTITUTE 对 此 无 效 ! 每 个 单元 格 的 乱码 都 不 一 样 ， 要 想 让 
SUBSTITUTE 和 生效， 就 得 为 每 一 个 “名 ”号 一 个 公式 。 


SN tO es 网 国 必 a wn) 
















C 
LastName 
Rasmuss(ID 127jen 
RasmusslID 98jen 


Warel(ID 34) 

RallD 127]jsmussen 
ColiD 156)ok =SUBST-TUTE (C3, “vilID 98)", ™) 
Hubbal(ID 139)rd 

Fan(iD .75)ell =SUPST-TYTE (CA, wiID 94)", ™) 


payliD 91jne 
MeliD 152jdina 
Burn(ID 8js 
BeliD 164)ard 
Ewing(ID 7) 
park{ID 105}s 






这 就 失去 了 使 用 公式 的 意义 一 一 使 用 公式 不 就 是 为 了 摆脱 输入 输入 
再 输入 的 麻烦 吗 ! 


用 SUBSTITUTE 蔡 换 名 字模 式 太 麻烦 了 


SUBSTITUTE 函 数 的 功能 是 找到 某 种 格式 的 文本 字符 串 并 蔡 
换 , “名 ”的 问题 是 每 个 名 称 都 各 不 相同 ， 难 以 替换 。 


这 些 文 李 论 符 
串 各 不 相同 ， 
Rasmuss (ID 98) en 







Co(ID 156) ok 





没 法 输入 替 接 值 ， 因 为 
这 些 值 会 灾 来 安南， 


不 仅 如 此 ，LastName 域 的 复杂 模式 还 在 于 : 不 统一 的 字符 串 出 现在 
各 个 单元 格 的 不 同位 置 上 ， 长 度 也 不 一 样 。 





这 里 的 不 视 一 从 单元 车 -一 人 人 站 是 7 个 寅 医 
宛 符 网 第 2 位 开 答 …… Rasmuss (ID 98) en 

这 时 二 东 缠 一 上 Co(ID 156) ok 这 一 黄 网 长 谍 

第 这 性 定 条 开始! 二 人 全 _ 一 则 高 ?个 窜 茜 ， 


用 启 套 文本 公式 处 理 复 森 的 模式 


熟悉 了 Excel 的 文本 公式 之 后 ， 就 可 以 组 套 ” 使用， 以便 处 理 混乱 的 
数据 。 实 例如 下 : 


FIND 公 式 征 可 一/ 

到“ ”位 十 欧 艇 证 
二 

a 


Raemuse (ID 98)en 


am tI 98) en 


Rasmuss (ID 38) en se、 





Rasmussen 
~\ 
、 


\ 
CONCETENATS 特 / 
于 求 租 合 在 一 起 ， 


公式 行 得 通 ， 但 有 一 个 问题 : 公式 开 妈 变 得 史 梁 难民 。 要 是 能 一 
次 性 把 公式 写 全 ， 这 倒 也 算 不 得 问题 ， 不 过 ， 能 Ti 有 效 
的 工具 会 更 好 ， 但 CONCATENATE 没 有 做 到 这 一 i 








可 系 可 只 有 系 用 家 长 及 闻 的 公 席 。 而 用 更 简 
单 驱 办 这 入 帮 这 记 而 蓝 案 的 数据 呢 1 访 知 
毅 选 式 过 是 址 俱 氏 喷 了 …… 


R 能 用 正则 表达 式 处 理 复杂 的 数据 模式 


正则 表达 式 ”是 一 种 编程 工具 ， 你 可 以 用 这 个 工具 指定 复杂 的 模式 
以 便 匹 配 和 蔡 换 文本 字符 串 ，R 在 这 方面 非常 好 用 。 


下 面 是 一 个 用 于 查找 字母 “a” 的 简单 的 正则 表达 式 模式 。 在 R 中 输入 
这 个 模式 ，R 将 指出 是 否 存在 匹配 结果 。 








技巧 


为 了 进一步 了 解 ”正则 表达 式 的 完整 规定 和 语法 ， 让 我 们 在 R 中 输 


入 “?regex”。 


这 就 是 马帮 SD 
助 文件 中 的 “用 二 二 一 -= 一 一 = 
正则 表达 式 。 站 四 
参考 资料 。 


Th 
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正则 表达 式 是 整理 混乱 数据 的 杀手 铜 ， 大 量 平台 和 编程 语言 都 使 用 
正则 表达 式 一 一 虽说 Excel 并 不 使 用 。 

发 件 人 : Head First 洗 头 公 司 

收 件 人 : 分 析 师 

主题 : 现在 就 要 名 单 

好 好 干 ! 这 些 人 很 热门 ， 不 过 已 经 开始 遇 冷 。 

我 希望 营销 团队 不 要 错过 打 电 话 的 时 机 ! 








最 好 行动 起 来 ! 方案 : 


将 芋 涡 加 载 勾 R 中 ， 看 看 hsasz 有 有 令 得 出 的 苦果 ， 吕 以 将 Excel 文 件 保存 本 
为 CSV 文 什 : 然后 将 CSY 文 人 下 载 到 R 中 ， 惑 中 使 用 以 下 赔 第 许 接 瑟 玖 
到 新 芝 揭 ， 


这 个 指 李 畏 @3ET 访 
六 一 小 名 动 hEhh 疯 


素 牛 中 \ 司 四 可 国 酌 本 图 
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eenden RameeltiD $6) em 10013 45¢6-0]2-7258 4233 232/2009 123;17 

Sean WarediD) 94) 10013 556-091"9526 4254 4/2/2000 1415¢ 
Alwnin WaliD 377) amuanus 11422 ig-SS4"2463 4255 123/53/2008 15:32 
JeccDY CoITD S90) 0k 30043 917-800-0346 2546 3/320008 3757 
Wiincen HubbelID 539)xd 10026 917-667-2256 4257 4/4/2009 13:19 





运行 以 下 正则 表达 式 指令 
NewLastName =- sub(“\\(.*\\)”,””,hfhh$LastName) 
然后 检查 一 下 工作 成 果 : 运行 head 指 令 ， 查 看 表格 前 几 行 。 


head (NewLastName) 


结果 如 何 ? 


用 sub 指 令 整理 < 名” 


sub 指 令 用 空格 葵 换 所 发 现 的 所 有 指定 模式 ， 有 效 地 删除 了 
LastName 列 中 的 每 一 个 插入 文本 字符 串 。 





FS 
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RR Re Edt Yiew Mac Paxksges Windows Help 


slelnlslelo 
> WeutanastHare ¢- subil" #e me 
head (NevLast Name 





让 我 们 看 看 语法 : 


i 该 是 空 狠 六 本 
这 是 代 过 径 和 整理 i 县 窒 痢 六 蒜 ， nl 
Mp 迹 是 十 期 参 兴 和 全 站， 一 此 过 挨 匹配 措 穴 
“名” 治 新 共 量 ， 党 以 实 。 
\ 
\ Ar 


| 站 ¥ 


i 
NewLastName <- sub (WV\(.*\\)", "hfhh$sLastNane) 


只 要 能 在 混乱 数据 中 找到 一 个 模式 ， 就 能 写 出 并 利用 正则 表达 式 得 
到 自己 想 要 的 数据 结构 。 


再 不 必 编 写 长 得 让 人 发 疯 的 电子 表格 公式 了 ! 
正则 表达 式 细节 


正则 表达 式 包括 三 个 部 分 ， 左 括号 、 右 括号 、 括 号 里 面 的 所 有 内 
容 。 


向 车 。 
全 | 才 OQ 1 

> Ns ee = Wt Tv 

由 区 是 到 条 | 

= 

从 

】 \ 

囊 位 何 _/ \ 
+ 一 一 星 号 民 训 人 数 

的 } 襟 


世上 没有 伊 问 题 


问 : 某 些 正则 表达 式 似乎 的 确 难 以 看 惟 ， 掌 握 正 则 表达 式 有 多 
难 ? 


答 : ”正则 表达 式 难 懂 的 原因 是 它们 非常 精炼 。 在 语法 上 精打细算 
非常 有 利于 处 理 错综复杂 的 模式 。 和 其 他 复杂 事物 一 样 ， 正 则 表达 式 易 
学 难 精 。 多 花 扣 时 间 研 究 正则 表达 式 吧 ， 你 会 弄 明 白 的 。 


问 : ”要 是 没有 电子 数据 表 怎么 办 ?我 的 数据 可 能 取 自 PDF、 网 页 
或 甚至 是 XML 。 


答 : ”这 才 是 正则 表达 式 的 用 武之 地 。 只 要 能 把 信息 转变 成 菜 种 文 
本 文件 ， 就 能 用 正则 表达 式 解 析 。 网 页 尤其 十 数据 分 析 工 作 中 和 常见、 地 
道 的 信息 来 源 ， 把 HTML 标记 模式 编制 成 正则 表达 式 不 过 是 小 亲 一 人 碟 。 


问 : ”其 他 还 有 哪些 特定 平台 使 用 正则 表达 式 ? 





答 : Java 、Perl 、Python、Java-Script ... 各 种 各 样 的 编程 语言 都 使 
用 正则 表达 式 。 


问 : 既然 正则 表达 式 在 编程 语言 中 广泛 使 用 ， 为 什么 Excel 不 能 执 
行 正则 表达 式 ? 


答 : 在 windows 平台 上 ， 你 可 以 用 Excel 自 带 的 VBA 编 程 语言 执行 
正则 表达 式 。 但 大 部 分 人 很 快 束 会 不 再 费心 学 习 Excel 编 程 ， 而 是 改 用 





功能 更 强大 的 程序 ， 比 如 R 。 哦 ， 由 于 最 新 发 布 的 Excel for Mac 去掉 了 
VBA， 所 以 ， 无 论 如 何 都 不 能 在 Excel for Mac 中 使 用 正则 表达 式 了 。 


现在 可 以 同 客 尸 交代 了 
最 好 把 最 新 工作 成 果 写 成 CSV 文 件 供 客户 使 用 。 
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在“ 泛 特 修 ， 


+ 


RES 






站 A =hh 中 十 加 新 竟 
以 hftg 数 据 朴 剖 宁 基 人 除 LaatMame 笃 四 
成 起 LastNam 杰 釉 ， 


这 小 斑 放 京 出 阐 在 玉昌 工 伐 


目 盆 下 ， 可 从 用 getwd1] 
圭 转 震 写 六 人 
cso 文件 ,一 
沙 





不 管 客户 用 的 是 Excel、OpenOffice 还 是 其 他 统计 软件 ， 都 能 读 取 
CSV 文 件 。 


可 能 尚未 大 功 告 成 .….… 
客户 对 你 的 工作 成 果 颇 有 微 酬 。 





这 没 洁 用 啊 | 看 这 些 童 
复杂 目 ! 





他 说 得 对 。 以 Alexia Rasmussen 为 例 : Alexia 确 实 出 现 了 一 次 以 上 。 
当然 ， 可 能 有 两 位 同名 同姓 的 Alexia Rasmussen， 可 是 ， 再 仔细 一 看 
呢 ， 两 条 记录 的 “PersonID” 都 等 于 “127”， 这 就 表示 是 同一 个 人 。 


有 可 能 Alexia 是 唯一 重复 出 现 的 名 字 ， 而 客户 正巧 看 到 了 这 个 错 
误 。 为 了 碍 清 究竟 ， 你 需要 想 个 办 法 让 自己 更 轻松 地 找 出 重复 现象 ， 而 
不 用 费力 查看 这 张 长 长 的 名 单 。 
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这 郊 有 一 
个 名 富 重 
复 了 | 


为 数据 排序 ， 证 重复 数值 集中 出 现 


如 末 数 据 量 很 大 ， 则 发 现 ”重复 数值 颇 为 不 易 ， 给 名 单 排 个 序 的 话 


就 容易 多 了 。 





练习 





让 我 们 通过 排序 更 仔细 地 看 看 名 单 中 的 重复 情况 。 
0 
列 指令 : 


排 峰 查 出 网 新 名 间 。 


\ hfhhsorted <— hfhailorde- (hhoPersonID), 


由 于 PersonID 域 有 可 能 是 代表 每 一 个 人 的 特定 编号 ， 用 它 排 序 再 好 
不 过 。 毕 竟 ， 这 些 数据 中 可 能 不 止 一 个 叫做 “John Smith” 的 人 。 


下 面 ， 执 行 head 指 令 看 看 生成 的 结 


head(hfhhSorted, n=50) 


练习 解答 





用 R 按 照 PersonID 对 数据 框架 排序 后 ， 发 现 有 重复 数据 吗 ? 
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右手 头 数据 非常 混乱 ， 就 应 该 大 胆 地 排序 “， 尤 其 是 在 记录 量 
很 大 的 情况 下 ， 要 一 次 性 看 清 所 有 的 数据 往往 很 难 ， 而 按照 不 同 的 
域 对 数据 进行 排序 则 能 够 以 直观 的 方式 为 数据 分 组 ， 从 而 发 现 重复 
现象 或 其 他 疑义 。 










硝 几 点 可 疑 之 处 。 裁 们 赐 竞 争 对 手 
钨 什么 要 覃 复 保 存 数据 ? 是 查 开 说 
笑 吗 ? 


动 动笔 


仔细 看 看 这 些 数 据 。 能 说 说 为 什么 名 字 会 重复 吗 ? 


把 沾 尖 雳 帮 读 几 ，、 











只 me ta View Mnc Pockages Windows He 






国 交 可 本 图 图 


PerpcnID Flrstiene 





这 些 数 据 有 可 能 来 源 于 东 个 关系 数据 库 


如 采 你 所 拥有 的 混乱 的 数据 列表 中 出 现 重 复元 素 ， 则 这 些 数据 有 可 
能 来 目 一 个 关系 数据 库 。 在 本 例 中 ， 你 使 用 的 数据 是 东 个 查询 的 输出 结 
果 ， 且 被 输出 成 两 个 表格 。 


由 于 你 了 解 RDBMS 架 构 ， 你 知道 ， 我 们 之 所 以 看 到 这 些 重 复 现 
象 ， 是 因为 查询 返回 数据 的 方式 ， 而 不 是 因为 数据 质量 低劣 。 所 以 ， 
你 现在 可 以 放心 地 删除 这 些 重复 的 名 称 ， 而 不 必 担 心 数据 中 存在 本 质 错 


误 。 











这 些 数 据 拘 原 恰 数 据 


峰 可 能 是 这 修 样 吾 ， 


\ 


PersonlD 















PhoneCalllD 




















FirstName PersonlD 
LastName CallDate 
Etc… Etc-…- 








| 更 多 资料 < 


玲 扼 道 这 个 数 
据 洗 中 还 有 此 


什么 资料 呢 ? 


删除 重复 名 字 





既然 已 经 知道 名 字 出 现 重 复 的 原因 ， 


Excel 都 有 用 于 删除 重复 数据 的 快捷 、 





在 R 中 删除 返 复 数据 非常 简便 ， 
这 了 蛋 除 再 草 拖 :用 ，“Lricuc” 同 和 阁 
还 运 同 “人 区 让 或 有 具 右 指 空 外 好 吃 


起 渔 古 并。 / = 污 
€ 一 > 甩 
unidue (mydata) 7 Remove 

村 | 本 Dupiicates 
这 其 对 了 范 闵 烙 站 平 教 值 大 这 经 St a 
重复 识 几 有 说 


-个 新 名 称 ， 这 样 这 能 合 故 异 的 由 
一 点 是 忻 . 


就 可 以 开始 删除 
简便 的 函数 。 





在 Excal 中 蜀 除 重复 数据 是 小 菜 一 配 : 


必 顷 下 光 权 让 在 克拉 工 ， 
这 个 控 福 : 





xxel 写 要 求全 秦 出 电 几 列 宫 相 包 从 
不 如 数 伯 ， 共 他 列 中 应 冉 及 复 繁 疯 


了 。R 和 





洽 被 基 | 字 ， 

















既然 你 已 经 有 了 除去 这 些 烦 人 的 重复 名 字 的 工具 ， 就 让 我 们 整理 名 
单 ， 然 后 交 给 客户 吧 。 


了 “中 一 妆 冰 怨 地 


. pn 本 二 面相 省 司 
1 。 让 三 个 亲族 棋 征 撕 ， 吕 不 于 二 1 册 交 二， 修 匡 次 锯 
1 es ea Te -过 - 


加 ”删除 CalID 和 Time 域 ， 
些 域 . 





些 域 使 名 字 出 现 重 复 ， 而 客户 并 不 需要 这 


hfhhNamesOonly$CallID=-NULL 
hfhhNamesOonly$Time=-NULL 


使 用 unique 函 数 删除 重复 的 名 称 


unique 在 行动 | 


31HNarmescrl < unicue laflliNames arly ee 








看 一 看 结果 ， 将 结果 写 入 一 个 新 的 CSV 文 件 : 


head(hfhhNamesOonly, n=50) 
write.csv(hfhhNamesonly, file=“hfhhNamesonly.csv”) 


你 创建 了 美观 、 整 洁 、 有 具有 唯一 性 的 记录 


这 些 数据 看 起 来 无 懈 可 击 : 没有 挤 在 一 起 的 数据 列 ， 没 有 混乱 的 字 
.0 这 都 是 按照 下 列 整 理 混乱 数据 的 基本 步骤 进行 操作 
和 结果: 





Se Lae Yn Mr Prep Wstom wep 
加 二 下 la 图 


bi ey 过 有 





Head First 猫 涉 公 司 正 在 一 网 打 尽 各 种 人 才 ! 


事实 证 明 ， 你 整理 的 数据 集 收 效 奇特 。 和 凭借 这 份 活 色 生 香 的 名 单 ， 
Head First 猪 头 公 司 客 户 和 便门 ， 没 有 你 的 数据 整理 扩 术 ， 他 们 决 不 可 能 
到 这 一 步 。 干 得 漂亮 ! 













将 报 了 1 我 们 找到 了 渴 
多 的 新 人 和 才 ， 比 只 前 多 
多 了 ! 





数据 孝感 谢 您 的 光临 





离别 让 人 黯然 神伤 。 不 过 ， 看 到 你 学 以 致 用 ， 这 是 我 们 再 高 兴 不 

过 的 事 。 你 的 分 析 师 人 生 刚 刚 开 始 ， 我 们 已 经 扶 你 上 马 。 我 们 泡 望 知道 

你 的 消 轧 ， 所 以 ， 来 Head First 图 书馆 网 页 上 (www.headfirstlabs.com ) 
给 我 们 写 几 句 吧 ， 让 我 们 知道 数据 分 析 为 你 做 出 的 贡献 ! 


附录 A: 尾声 
正文 未 及 的 十 大 要 诀 


还 设 结 藻 呢 ， 对 吧 ? 事情 多 省 
呢 ! 





你 已 颇 有 收获 。 


但 数据 分 析 这 门 技术 不 断 变 迁 ， 学 之 不 尽 。 由 于 本 书 篇 幅 有 限 ， 尚 
有 一 些 密切 相关 的 知识 未 予 介 绍 ， 我 们 将 在 本 附录 中 浏览 十 大 知识 点 。 


其 一 : 统计 知识 大 全 


统计 学 领域 拥有 大 量 数据 分 析 工 具 和 技术  ， 对 数据 分 析 极 其 重 
要 ， 乃 至 许多 “数据 分 析 ” 著 作 其 实 束 是 统计 学 着 作 。 


下 面 列 出 本 书 未 提 及 的 统计 工具 。 





汪 芝 号 析 且 本 s 调 暗 
一 
ps [ 
有 \ 
vy 
计 腿 设 和 作 滩 程 入 
调查 TI 护 痘 
遇 习 区 岂 旦 芒 性 检验 卡 方 检验 
ftR 必要 深浅 2 
本 本 区 前 
《深入 浅 出 数据 图 富有 盏 均 社 
未 提 及 拘 统 计 知 记 玲 率 直方 图 
上 各 柄 变 知 证 就 亡 施 站 
末 法 据 则 = 理子 提 
得 容 种 
二 贰 去 沼 弄 概 衬 
其 他 形形色色 的 知识 





不 过 ， 通 过 本 书 ， 你 在 假设 和 建 模 意识 方面 获得 了 长 足 进 步 ， 不 
仅 为 使 用 各 种 统计 工具 做 好 了 准备 ， 也 了 解 到 了 各 种 统计 工具 的 局 限 性 





统计 知识 越 洲 博 ， 分 析 工 作 越 有 可 能 取得 辉煌 成 就 。 


其 二 :Excel 技巧 


本 书 假定 你 掌握 了 基本 的 电子 表格 技术 ， 但 娴熟 的 数据 分 析 师 应 该 
是 一 个 电子 表格 忍者 。 


与 R 及 回归 等 概念 相 比 ， 和 掌握 Excel 并 不 是 特别 难 。 你 行 的 ! 
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其 三 : 1 教授 Edward Tufte (爱德华 . 塔 夫 


优秀 的 数据 分 析 师 会 花 大 量 的 时 间 有 反复 拜读 数据 分 析 大 师 的 杰作 ， 
Edward Tufte 不仅 在 自己 的 工作 上 独树一帜 ， 而 且 对 搜集 并 选 入 自己 著 
作 的 其 他 分 析 师 的 作品 质量 也 有 独特 的 看 法 。 下 面 是 他 提出 的 天 于 分 
析 设 计 的 基本 原则 : 


“体现 出 比较 、 对 比 、 差 异 。” 

“体现 出 因果 关系 、 机 制 、 理 由 、 系 统 结构 。” 

“体现 出 多 元 数据 ， 即 体现 出 1 个 或 2 个 变量 。” 

“将 文字 、 数 字 、 图 片 、 图 形 全 面 结 合 起 来 。” 

“充分 描述 证 据 。” 

“数据 分 析 报 告 的 成 败 在 于 报告 内 容 的 质量 、 相 关 性 和 整体 





一 Edward Tufte 


这 些 引 言 出 自 其 著作 《出 色 的 证 据 》 (Beautiful Evidence ) 之 
127、128、130、131、133、136 页 。 其 著作 可 谓 数据 图 形 化 顶级 作品 展 
馆 。 


另外 ， 其 著作 《公共 政策 数据 分 析 》 (Data Analysis for Public 
Policy ) 可 谓 回归 技术 宝典 ， 可 在 此 网 址 免费 下 载 ; 
http://www.edwardtufte.com/tufte/dapp/. 





其 四 : 数据 透视 表 


数据 透视 表 是 电子 表格 和 数据 分 析 软 件 中 极其 有 效 的 数据 分 析 工 
具 ， 是 探索 性 数据 分 析 和 相关 数据 库 数据 汇总 的 梦幻 之 作 。 
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A _, 
利 内 流传 感 净 就 据 ， 可 心 特 > 
刊 寺 量 数 据 寺 草 .东江 各 ， 


NN 
WW 











设 县 十 千 十 分 阐 曾 
掏 识 态 示 视 玉 ， 


| 824 
Grand Total 上 1918259 








其 五 : 及 社区 


R 不 只 是 一 个 出 色 的 软件 程序 ， 它 还 是 一 个 出 色 的 软件 平台 。 其 威 
力 来 源 于 全 球 用 户 和 作者 社区 ， 这 些 用 户 和 作者 向 社区 提交 免费 软件 包 
， 其 他 人 则 可 借助 这 些 成 果 进行 数据 分 析 。 


通过 运行 神奇 的 数据 图 形 化 数据 包 一 一 lattice ”中 的 “xyplot” 函 数 ， 
你 已 经 体验 过 这 个 社区 。 


你 蝎 宗 虚荣 列 可 中 是 湛 匹 自己 
党 要 明志 种 款 件 名 的 和 绷 合 .。 





其 六 : 非 线 性 与 多 元 回归 


即使 数据 未 呈现 线性 外 观 ， 在 某 些 情况 下 ， 也 可 以 使 用 回归 进行 预 
测 。 一 种 办 法 是 将 数字 变形 ”， 最 终 使 数据 线性 化 ， 男 一 种 办 法 是 罕 过 
图 上 的 点 夯 一 条 多 项 式 回归 线 ， 以 此 取代 线性 回归 线 。 


同样 ， 不 必 限 定 上 自己 通过 唯一 的 目 变 量 预 测 一 个 应 变量 。 有 时 候 ， 
ee ， 为 了 进行 有 效 预 测 ， 可 以 使 用 多 元 回归 技 









这 二 数据 点 未 是 找 性 鲍 ， 诠 
呈请 茵 网 模式 ， 


一 商 可 以 写 出 一 本 和 莹 巩 。 通 过 得 个 自 京 重 巴 济 一 个 起 灾 重 。 
/ 
| 
站 二 站 二 DX + cx,+ dx;, + 


其 七 : 原 假设 - 备 择 假设 检验 


尽管 第 5 章 介 绍 的 假设 检验 技术 用 途 广泛 ， 能 涵盖 各 种 分 析 问 题 ， 
但 是 ， 不 少 人 尤其 是 学 术 界 与 科学 界 ) 一 听 到 “假设 检验 ”这 几 个 字 ， 
就 会 想到 统计 技术 中 的 原 假 设 - 备 择 假 设 检 验 。 


使 用 这 个 技术 的 人 多 于 理解 这 个 技术 的 人 ， 如 果 想 学 会 ，《 深 入 浅 
出 统计 学 》 (Head First Statistics ) 是 个 不 错 的 起 点 。 












对 于 我 网 数据 来 说 ， 原 
假设 可 行 吗 ? 


其 八 : 随机 性 
随机 性 是 数据 分 析 的 重头 戏 。 
原因 是 随机 性 几乎 无 迹 可 寻 ”。 当 人 们 试图 解释 事件 时 ， 通 过 以 模 


0 











户 问 你 为 什么 会 发 生 某 件 事 ， 在 经 过 最 精心 的 分 析 之 后 ， 你 
老实 实地 回答 : “这 件 事 可 以 用 结果 的 随机 性 来 解释 。 


RN 





我 从 未 未 注 蒜 这 家 伙 打 算 来 
哪 一 手 ， 忽 府 他 身上 访 过 的 
行为 模型 统统 没 用 。 真 珊 望 
我 刍 说 英语 …… 








其 九 : O08 Docs 


我 们 介绍 过 Excel、OpenOffice 及 R， 了 人 


提 。 0 0 不 仅 有 功能 完备 的 在 线 电子 表格 ， 
性 提供 大 量 图 形 。 


0 民 值 得 一 
通过 Gadget 特 


痕 Gosgle Des 藤 ， 3 时 特 习 三 
以 给 果 天 花 …… 门 闹 配 秘 。 
\ 
1 
Add a Gadgat E 7 
/ 
J/ 
Fesalwac / 
:Scatter Chart 4 
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Pu FE Di ne rinse cmt in Me 
1 和 caiumn contins values 
\ Coast ( Ade wa epewevdwheer | 


Have a better iGea? 
’y | sD Motion Chost 
slay dole in cool new ep | SY Cogn 
RE Want 9 oop ycur Admanse ‘95h borec chort lo wpam 
el er this lies? Sey rE yr Lm Peay 
Suhmit tt us Larg Ne courrs: bibolo “ome, br ond 2 
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另外 ，Goolge 
。 这 天 免费 软件 绝对 值得 一 试 。 


Docs 有 很 多 功能 都 能 帮助 你 访问 实时 在 线 数据 资源 


其 十 : 你 的 专业 技能 


你 学 会 了 本 书 介 绍 的 各 种 工具 ， 但 与 此 相 比 ， 更 令 人 振奋 的 是 ， 你 
将 纤 # 合 自己 的 专业 技能 ， 赁 借 这 些 工 具 去 用 现世 界 、 改 造 世界 。 祝 你 


好 运 。 


附录 B: 安装 R 
启动 R! 


是 鹏 ， 我 更 订 一 矢志 界 一 这 的 税 计 和 
款 件 ， 要 和 能 党 挥 我 揭 分 折 潜 力 ， 衣 
要 , 油 ， 还 要 方便 ， 群 托 了 . 





强大 的 数据 分 析 功 能 靠 的 是 复杂 的 内 部 机 制 。 


好 在 只 需 几 分 钟 就 能 安装 和 启动 R， 本 附录 将 介绍 如 何不 费 吹 灰 之 
力 安装 R。 


R 起 步 


强大 、 免 费 的 开源 统计 软件 R 可 分 以 下 四 步 快 捷 、 简 便 地 进行 安 


前 往 www.r-projectorg 下 载 R。 在 身边 找到 一 个 提供 R 的 镜像 并 不 
难 〈 用 于 Windows、Mac 和 Linux 等 环境 ) 。 


:ip ~ 了 
Nae td Cig 和 Bea Bd? aas bid 
_ Eee OS 





The R Project for Statistical 
Computing 


童 击 这 个 下 载 链接 . 


Caortng Started: 


. Foafiee cle cui urn jn seb can dan nd pao Y ompk, ct we 
ea ST pdfnre, WS esl NaOS To dredszd B ieee Orn y pe 叶 
CLEA car 


. Eyon br opten 的 2 有 区 :jw pp Savehoed evd a re ne 2 ~ te bcp: rr 
7 x 册 -4 到 = bc 


br 
| Sd ets 
MEY 辣 wL22Teocieediaa3 el bond 








下 载 好 R 程 序 文件 后 ， 双 击 程序 文件 ， 启 动 R 安 装 程 序 。 





革 江 中 处 ,， 一 一 





在 各 个 窗口 中 ， 单 击 Next( 下 一 步 ) ， 接 受 所 有 R 默 认 安 装 选项 ， 
让 安装 程序 执行 安装 。 


单 击 Nexzt 【 下 一 步 】 如 
可 接受 窟 月 默认 配置 ， 





drel Co roo 
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单 击 电脑 果 面 或 Start Menu《〈 开 始 沫 单 ) 上 的 RR 图标， 准备 使 用 R。 


12033 26 中 
WU 136 SE 25 LE -00895732 


MOTE -RADIO PPS FO PLS SE MD DT i 


hh sn enh he ed Fm hbase 
shan 1 Ee in 
Wb er em a A ere Ne eh ny 


Te ,dns 人， 2 3222 32222313 1” Sr on 了 3 30. 好 
Se 17 TAF hs ere STOMPNE 22895384 FE 3207, 
Fe 4. 


这 二 前 沁 高 奏 叉 有 时 能 宣 口 ， 





附录 C: 安装 Excel 分 析 工 具 
ToolPak 





我 想 立 刻 供 优化 ! 我 不 想必 
装 什 么 播 任 …… 


Excel 有 一 些 最 好 的 功能 在 默认 情况 下 并 不 安装 。 


为 了 执行 第 3 章 的 优化 和 第 9 章 的 直方 图 ， 需 要 激活 Solver 和 
Analysis ToolPak ，Excel 在 默认 情况 下 安装 了 这 两 种 扩展 插件 ， 但 知 非 
用 户主 动 操 作 ， 这 些 插件 不 会 被 激活 。 





在 Excel 中 安 狠 数据 分 析 工 具 


按照 下 列 步 又 进行 简单 操作 ， 束 可 以 在 Excel 中 轻松 安装 Analysis 


ToolPak 和 Solver。 
+ Ot Weel (me 二 
| ?天 Rerrnt Dorumseety | 村 于 
T= 
cy/ Spen 
| | 
这 是 /icrosn#t 口 # 训 ce 控 他 ”| on 
加 := 
凤 Sets * 
驻 s， 
防 ' Mspae » 4 
这 是 Exeat 
Options {Excal 选 项 ) ， 
ene Options | X Fan reel | 








单 击 Microsoft Office 按 钮 ， 选 择 Excel Options (Excel 选 项 )。 


选择 Add-Ins 插件) 标签 ， 单 击 Manage Excel Add-Ins.( 管 理 
Excel 插 件 ) 劳 边 的 Go... (执行 ...) 。 








"94” 标签 





草 击 这 个 按 峰 。 








务必 选中 Analysis ToolPak 和 Solver 插 件 框 ， 然 后 单 击 OK ( 确 
十 让 4 





务 吕 人 迁 中 这 两 个 选项 椎 . 





WP 
Helps Ceate formules tn find deta in ist 


查看 Data( 数 据 〉 选 项 卡 ， 确 保 Data Analysis (数据 分 析 )〉 和 
Solver 按 钮 可 以 使 用 。 


确信 能 在 W246 向 【数据 ) 选 
项 卡 下 看 到 这 些 粮 组 一 ~ 














现在 你 已 经 做 好 准备 ， 可 以 使 用 最 优化 、 和 直方 图 和 其 他 功能 


本 书 由 “ 行 行 * 整 理 ， 如 果 你 不 知道 读 什 么 书 或 者 想 获 得 更 多 免费 电 
子 书 请 加 小 编 微 信 或 QQ: 2338856113 小 编 也 和 结交 一 些 喜 欢 读书 的 朋 
友 或 者 关注 小 编 个 人 微 信 公众 号 名 称 : 幸福 的 味道 为 了 方便 书 友 朋友 
找 书 和 看 书 ， 小 编目 己 做 了 一 个 电子 书 下 载 网 站 ， 网 站 的 名 称 为 : 周 读 


网 址 ;www.ireadweek.com 


索引 


数字 
3D scatterplots (三 维 散 点 图 ) 


太太 品 


人 县 
一 非 (概率) 
-赋值 CR) 
\ 换 码 符 
| 假定 (概率 ) 
| 结果 (R) 
* 正则 表达 式 通 配 符 
.正则 表达 式 通配符 


? 主题 信息 〈R) 


accuracy analysis (正确 性 分 析 ) 

Adobe Illustrator 

Algorithm (算法 ) 

alternative causal models 《可 相互 换 用 的 因果 模型 ) 


analysis 〈 分 析 ) 
accuracy 〈 正 确 性 ) 
definitions of 〈... 的 定义 ) 
exploratory data 〈 探 索性 数据 ) 
process steps〈 过 程 步骤 ) 
step 1: define〈 步 骤 1: 确定 ) 
step 2: disassemble 〈 步 又 2: 分 解 ) 
step 3: evaluate (步骤 3: 评估 ) 
step 4: decide 〈 步 骤 4: 决策 ) 
purpose of 〈 目 的 ) 
Analysis ToolPak (Excel) 
“anti-resume”(“ 反 查 ”) 
arrays (lattices ) of scatterplots (大 量 散 点 图 ) 
association (关系 ) 
vs. causation (因果) 
linear 〈 线 性 ) 
assumptions (假设 ) 
based on changing reality 〈 基 于 不 断 变化 的 现实 ) 
baseline set of (基准 ...... ) 


cataloguing (编目 ) 


evaluating and calibrating (评估 与 校正 ) 


and extrapolation 〈 外 插 法 ) 





impact of incorrect( 错 误 造 成 的 影响 ) 
inserting your own (本 人 介入 ) 
making them explicit (使... 变 得 明确 ) 
predictions using 使用... 进行 预测 ) 
reasonableness of 〈... 的 合理 性 ) 
reassessing (重新 评估 ) 


regarding variable independence (关于 自 变 量 与 应 变量 ) 











casterisk (*) ( 星 写 (*) ) 
averages，types of 〈 平 均值 类型 ) 


=AVG()(Excel/OpenOffice 公 式 ) 


Backslash 〈 反 和 斜 杆 () 

baseline expectations (基准 期 望 ) ，【〔 男 参见 “假设 ”) 

baseline (null〉hypothesis (基准 ( 原 ) 假设 ) 

base rate fallacy (基础 概率 庄 误 ) 

base rates (prior probabilities〉【〔 基 础 概率 (事前 概率 〉) 
Bayes' rule and《〈 贝 叶 斯 规则 ) 


Defined (已 确定 ) 





how new information affects〈 新 信息 带 来 的 影响 ) 
Bayes' rule《〈 贝 叶 斯 规则 ) 
effect of base rate on 〈 基 础 概率 的 影响 ) 
overview 〈 概 述 ) 
revising probabilities using (修正 概率 的 方法 ) 
theory behind (基本 理论 ) 
Beautiful Evidence (Tufte) (《 出 色 的 证 据 》【〔 塔 夫 特 著 〉) 
Behind the Scenes〈 花 你 ) 
R.M.S. error formula 〈 均 方 根 误差 公式 ) 
R regression object 〈R 的 回归 对 象 ) 
bell curve 〈 铃 形 曲 线 ) 
blind spots〈 育 点 ) 
Bullet Points (要 点 ) 


client qualities (客户 素质 ) 





questions you should always ask (不 能 不 问 的 问题 ) 


things you might need to predict (可 能 需要 预测 的 问题 ) 


candidate hypothesis (候选 假设 ) 
cataloguing assumptions (假设 分 类 ) 


causation (因果 关系 ) 


alternative models〈 可 换 用 模型 ) 

Vs. association 〈 关 系 ) 

causal diagrams (因果 关系 图 ) 

causal networks (因果 关系 网 络 ) 

flipping cause and effect (颠倒 因果 关系 ) 

and scatterplots 〈 散 点 图 ) 

searching for causal relationships (寻找 因果 关系 ) 
chance error (residuals) 〔 机 会 误差 ( 残 差 ) ) 

defined 〈 已 确定 ) 

and managing client expectations (管理 客户 预期 ) 

and regression (回归 ) 

residual distribution 〈 残 差分 布 ) 

《同时 参见 “的 方 根 误差 ”) 

Chance Error Exposed Interview (机 会 误差 访谈 ) 
charting tools，comparing (制图 工具 ， 比 较 ) 
cleaning data (see raw data) (整理 数据 (参见 “原始 数据 ”) ) 
clients 《客户 ) 

assumptions of (假设 ) 

communication with 沟通) 


as data (数据 ) 


delivering bad news〔 说 出 坏 消息 ) 
examples of (实例 ) 
explaining limits of prediction (解释 预测 局 限 性 ) 
explaining your work〈 解 释 上 自己 的 工作 ) 
helping them analyze their business (帮助 客户 分 析 业 务 ) 
helping you define problem (帮助 你 确定 问题 ) 
Visualizations (图 形 ) 

listening to (倾听) 

mental models of (心智 模型 ) 

professional relationship with (职业 关系 ) 

understanding/analyzing your 〈 理 解 / 分 析 ) 

cloud function 《cloud 函 数 ) 


code examples (see Ready Bake Code) 《代码 示例 ， 参 见 “ 预 编程 代 
码 ”) 


coefficient (系数 ) 
correlation (r) (相关 性 (r) ) 
defined (已 确定 ) 
“cognitive art，”(“ 认 知 艺 术 ”) 
comparable，defined〈 可 比较 ， 已 确定 ) 
comparisons (比较 ) 


break down summary data using 〈 拆 分 汇总 数据 ) 


evaluate using 《评估 ) 
of histograms (直方 图 ) 
and hypothesis testing (假设 检验 ) 
and linked tables (链接 各 个 表格 ) 
making the right (正确 人 处理) 
method of (方法 ) 
multivariate (多元) 
and need for controls (控制 需求 ) 
and observational data( 观 察 数据 ) 
of old and new (新 与 旧 ) 
RDBMS 
valid (正确 ) 
visualizing your (图 形 ) 
=CONCATENATE() 
conditional probabilities (条 件 概 率 ) 
confounders( 混 杂 因 素 ) 
controlling for 〈 控 制 ) 
defined〈 已 确定 ) 
and observational studies (观察 研究 法 ) 


constraints (约束 条 件 ) 


charting multiple〈 多 元 图 形 ) 
defined (已 确定 ) 
and feasible region( 可行 区 域 ) 
as part of objective function (目标 函数 的 一 部 分 ) 
product mixes and (产品 组 合 ) 
quantitative (定量 ) 
in Solver utility (Solver 插 件 ) 
contemporaneous controls (同期 控制 法 ) 
control groups 《控制 组 ) 
controls (控制 法 ) 
contemporaneous (同期 ) 
historical (历史 ) 
possible and impossible (可 能 与 不 可 能 ) 
Convert Text to Column Wizard (Excel: 文本 转变 为 列 向 导 ) 
corO0 (CR 命 令 ) 
correlation coefficient(r) 〈 相 关系 数 r) 
=COUNTIFEO (ExcelMOpenOtffice 公 式 ) 
CSV files (CSV 文 件 ) 
curve，shape of (曲线 ， 形 状 ) 


custom-made implementation (定制 改装 ) 


D 
Data (数据 ) 
constantly changing (不 断 变 化 ) 
diagnostic/nondiagnostic〈 诊 断 / 非 诊断 ) 
distribution of 《分布 》 
dividing into smaller chunks 〈 分 解 为 更 小 的 组 块 ) 
duplicate，in spreadsheet (重复 ， 电 子 表 格 ) 
heterogeneous 〈 异 质 ) 
importance of comparison of 〈 比 较 的 重要 性 ) 
messy 〈 混 乱 ) 
observations about (观察 ) 
paired (成 对 ) 
quality/replicability of (质量 /重复 性 ) 
readability of (可 读 性 ) 
scant〈 极 少量 ) 
Segmentation (splitting) of (分区) 
subsets 〈 子 集 ) 
summary 〈 总 结 ) 
“too much，”( 太 多 ) 


when to stop collecting ( 何 时 停止 收集 ) 


data analysis (see analysis) 〈 数 据 分 析 ， 参 见 “ 分 析 ”) 


Data Analysis for Public Policy 〈《 公 共 政 策 数 据 分 析 》 〈 搭 夫 特 
将) ) 


data analyst performance 〈 数 据 分 析 师 绩效 ) 
empower yourself 〈 提 高 自身 ) 
insert yourself (本 人 介入 ) 
not about making data pretty 〈 不 以 数据 美观 为 目的 ) 
professional relationship with clients (与 客户 的 个 人 关系 ) 
showing integrity〈 体 现 公 正 ) 
data art〈 数 据 艺 术 ) 
databases〈 数 据 库 ) 
defined〈 已 确定 ) 
relational databases (关系 数据 库 ) 
software for( 软件) 
data cleaning (see raw data) (数据 整理 (参见 “原始 数据 ”) ) 


data visualizations (see visualizations) (数据 图 形 (参见 “图 
2 


decide (step 4 of analysis process) (决策 (分 析 步 又 第 4 步 〉) 
decision variables (决策 变量 ) 
define (step 1 of analysis process) 〔 确 定 ( 分 析 步 又 第 1 步 ，) 


defining the problem (确定 问题 ) 


互 
了 


delimiters 〈 分 隔 符 ) 
dependent variables〈 应 变量 ) 
diagnosticity〈 诊 断 性 ) 


disassemble (step 2 of analysis process) 


) 

distribution，Gaussian (normal) (高 斯 分 布 ( 
distribution of chance error 〈 机 会 误差 分 布 ) 
distribution of data (数据 分 布 ) 

diversity of outcomes (结果 差别 〉， 

dot(.) 〈( 点 (.)) 

dot plots〈 点 阵 图 ， 同 时 参见 “ 散 点 图 ”) 


duplicate data，eliminating 〈 重 复数 据 ， 删 除 ) 


edit()〈(R 的 编辑 命令 ) 

equations (方程 ) 
linear 〈 线 性 ) 
multiple regression 〈 多 元 回归 ) 
objective function〈 目 标 函 数 ) 
regression (回归 ) 
slope (和 斜率) 


error (误差 ) 


站 
区 | 
怀 
a 
芭 
蜡 


managing，through segmentation (通过 
quantitative (量化 ) 
variable across graph (图 形 中 的 变量 ) 


(同时 参见 “机 会 误差 ”; 均 方 根 误差 RMS) 





error bands (误差 区 间 ) 
VT 
Ethics (伦理 学 ) 

and control groups 《控制 组 ) 

showing integrity toward clients 〈 回 客户 体现 公正 ) 
evaluate (step 3 of analysis process) 《评估 【分析 步 又 第 3 步 ) ) 
evidence 〈 证 据 ) 

diagnostic〈 诊 断 ) 

in falsification method 〈 证 伪 法 ) 

handling new〔 处 理 新 消息 ) 

model/hypothesis fitting (模型 /假设 相符 ) 
Excel/OpenOffice 

=AVGO 

Bayes' rule in 〈 贝 叶 斯 规则 ) 


charting tools in (制图 工具 ) 


Chart Output checkbox (图 形 输出 复 选 框 》 
=CONCATENATEO 
Convert Text to Column Wizard (数据 转化 为 列 癌 导 ) 
-COUNTIEF0) 
Data Analysis 〈 数 据 分 析 ) 
-FIND0) 
histograms in 〈 直 方 图 ) 
Input Range field4〈 输 入 范围 域 ) 
=LEFT() 
-LENO 
nested searches in〔( 髓 套 搜索 ) 
no regular expressions in 〈 非 正则 表达 式 ) 
Paste Special function (“选择 性 烙 贴 ”功能 
pivot tables in 《数据 透视 表 ) 
=RAND() 
Remove Duplicates button (“删除 重复 ”按钮 ) 
=RIGHTO 
Solver 
Changing Cells field〈 更 改 单元 格 ) 


installing/activating (安装 /激活 ) 


Target Cell field〈 目 标 单 元 格 ) 
specifying a delimiter (指定 分 隔 符 ) 
standard deviation in (标准 偏差 ) 
-STDEV0) 

-SUBSTITUTE() 
=SUMIFO 
text formulas (文本 公式 ) 
=TRIMO) 
=VALUE() 
experiments (实验 ) 
control groups (控制 组 ) 
example process fowchart 〈 流 程 图 实例 ) 
VS. Observational study〈 观 察 研 究 法 ) 
overview (概要 ) 
randomness and 随机) 
for strategy〈 策 略 ) 
exploratory data analysis (探索 性 数据 分 析 ) 


extrapolation (外 插 法 ) 


false negatives《〈 假 阴性 ) 


false positives〈 假 阳性 ) 

falsification method of hypothesis testing (假设 检验 证 伪 法 ) 
fast and frugal trees( 快 省 树 ) 

feasible region 〈 可 行 区 域 ) 

=FIND() (Excel/OpenOffice 公 式 ) 


Fireside Chat (Bayes' Rule and Gut Instinct) (今夜 谈 : “ 贝 叶 斯 规 
则 ”先生 和 * 觉 ?” 先 生 ) 


flipping the theory (有 反问 理论 ) 


frequentist hypothesis testing (频率 论 者 假设 检验 ) 


Gadget (Google Docs 特 性 ) 
Galton，Sir Francis (高 尔 顿 峡 士 ) 
Gaps《〈 间 陋 ) 
in histograms 〈 直 方 图 ) 
knowledge《〈 知 识 ) 


gaps in histograms 〈 直 方 图 间隔 ) 








Gaussian Cnormal) distribution 〈 高 斯 分 布 〈 正 态 分 布 ) ) 
Geek Bits (技巧 ) 
regex specification (正则 表达 式 规 定 ) 


slope calculation 〈 和 斜率 计算 ) 


getwd() (R 指 令 ) 

Google Docs 

Granularity 〈 颗粒 ) 

graphics (see visualizations) 〈 图 形 ， 参 见 “ 图 形 ”) 
graph of averages 〈 平 均值 图 形 ) 

groupings of data (数据 分 组 ) 


head() (RR 指令) 
Head First Statistics (《 深 入 浅 出 统计 学 》) 
help() (R 指 令 ) 
heterogeneous data( 异 质数 据 ) 
heuristics (启发 法 ) 
and choice of variables (选择 变量 ) 
defined (已 确定 ) 
fast and frugal tree〈 快 省 树 ) 
human reasoning as (人 类 推理 ) 
vs. intuition (直觉 ) 
overview 《概述 ) 
rules of thumb (经 验 ) 


stereotypes as 《固定 模式 ) 


strengths and weaknesses of 〈 优 缺点 ) 
histO (CR 指令 ) 
histograms 〈 直 方 图 ) 
in Excel/OpenOffice (Excel/OpenOffice 中 的 ...... ) 
fixing gaps in 〈 处 理 缺 口 ) 
fixing multiple humps in (处 理 多 个 峰 ) 
groupings of data and (数据 分 组 ) 
normal (bell curve) distribution in( 正 态 分 布 ( 铃 形 曲 线 〉) 
overlays of 〈 迭 加 ) 
overview (概述 ) 
in R〔R 程 序 ) 
vs. scatterplots 〈 散 点 图 ) 
historical controls 〈 历 史 控 制 法 ) 
human reasoning as heuristic〈 启 发 式 人 类 推理 法 ) 
hypothesis testing (假设 检验 ) 
diagnosticity (诊断 性 ) 
does it fit evidence (假设 是 否 与 证 据 相 符 ) 
falsification method (证 伪 法 ) 
frequentist〈 频 率 论 者 ) 


generating hypotheses〈 建 立 假设 ) 


overview (概述 ) 
satisficing (满意 法 ) 


weighing hypotheses (权衡 假设 法 ) 


llustrator (Adobe lllustrator) 

independent variables 〈( 自 变量 ) 

intercepts 〈 截 距 ) 

internal variation (内 部 偏差 ) 

interpolation (内 插 法 ) 

intuition Vs. heuristics (直觉 与 启发 法 ) 
inventory of observational data〔( 搜 集 观察 数据 ) 
iterative，defined (有 反复 的 ， 确 定 的 ) 


jitter() (R 指 令 ) 


knowledge gaps (知识 缺陷 ) 


lattices (arrays ) of scatterplots〈 散 点 图 集 ) 


=LEFT() (ExcelMOpenOffice 公 式 ) 


=LENO (ExceMOpenOtffice 公 式 ) 
libraryO 〈R 指 令 ) 

linear association 〈 线 性 相关 性 ) 
linear equation 〈 线 性 方程 ) 

linearity 〈 线 性 ) 

linear model object 线性 模型 对 象 ) 
linear programming (线性 编程 ) 
linked spreadsheets (关联 电子 表格 ) 
linked variables (关联 变量 ) 


lm()〈R 指 令 ) 


measuring effectiveness (计量 绩效 ) 
mental models (心智 模型 ) 
method of comparison (比较 方法 ) 
Microsoft Excel (Excel/OpenOffice 程 序 ) 
Microsoft Visual Basic for Applications (VBA) 
models (模型 ) 

fit of 《符合 ) 

impact of incorrect (错误 影响 ) 


include what you don't know in (包含 不 了 解 的 因素 ) 


making them explicit (模型 明确 化 ) 

making them testable (模型 可 测试 ) 

mental 《心智 的 ) 

need to constantly adjust (需要 不 断 调 整 ) 

segmented (分 区 ) 

statistical 《统计 的 》 

with too many variables (变量 太 多 ) 
multi-panel lattice visualizations (多 面板 网 格 图 形 ) 
multiple constraints (多 种 约束 条 件 ) 
multiple predictive models (多 种 可 预测 模型 ) 
multiple regression (多 元 回归 ) 


multivariate data visualization (多 变量 数据 图 形 ) 


negatively linked variables〈 负 相关 变量 ) 

networked causes (因果 关系 ) 

nondiagnostic evidence 〈 非 诊断 证 据 ) 

nonlinear and multiple regression 〈 非 线性 多 元 回归 ) 
normal (Gaussian) distribution 〈 正 态 〈 高 斯 ) 分 布 ) 
null-alternative testing 〈 备 择 检 验 ) 


null (baseline) hypothesis〈 备 择 假设 〈 原 假设 ) ) 


objective function (目标 函数 ) 
objectives (目标 ) 
“objectivity，”( 目标 性 ) 
observational studies (观察 研 究 ) 
OpenOffice (参见 Excel/OpenOffice) 
operations research (运算 研究) 
optimization (最 优化 ) 

and constraints (约束 条 件 ) 

vs. falsification (证 伪 法 )》 

Vs. heuristics (启发 法 ) 

overview (概述 ) 

solving problems of (解决 问题 ) 

using Solver utility for (Solver 功 能 
order()(R 指 令 ) 
outcomes，diversity of (多 种 结果 ) 
out-of-the-box implementation 〈 现 买 现 用 ) 


overlays of histograms 〈 重 欠 直 方 图 ) 


paired data 《成 对 数据 ) 


perpetual，iterative framework (反复 不 断 地 构建 ) 
pipe character (| 字符 ) 
in Bayes' rule〈 贝 叶 斯 规则 ) 
in R commands (R 指 令 ) 
pivot tables (数据 透视 表 ) 
plot() 〈R 命 令 ) 
polynomial regression (多 项 式 回 归 ) 
positively linked variables 〈 正 相关 变量 ) 


practice downloads〈 练 习 下 载 : 
www.headfirstlabs.com/books/hfda/) 


bathing_friends_unlimited.xls 
hfda_ch04 home pagel.csv 
hfda_ch07_data_transposed.xls 
hfda_ch07_new_probs.xls 
hfda_ch09_employees.csv 
hfda_ch10_employees.csv 
hfda_ch12_ articleHitsComments.csv 
hfda_ch12 _ articles.csv 

hfda_ch12 issues.csv 
hfda_ch12_sales.csv 


hfda_ch13 raw_data.csv 


hfda.R 
historical_sales_data.xls 
prediction (预测 》 
balanced with explanation 〈 加 以 解释 ) 
and data analysis (数据 分 析 ) 
deviations from 〈 偏 差 ) 
explaining limits of (解释 限制 条 件 ) 
outside the data range 〈extrapolation ) 〈 超 出 数据 范围 《〈 外 插 ) ) 
and regression equations 〈 回 归 方程 ) 
and scatterplots 〈 散 点 图 ) 
prevalence，effect of (程度 ， 效 果 ) 
previsualizing 〈 想 象 ) 


prior probabilities (see base rates [prior probabilities]) (事前 概率 
(参见 “基础 概率 [事前 概率 」 ”) ) 


probabilities (概率) 
Bayes' rule and《〈 贝 叶 斯 规则 ) 
calculating false positives，negatives 〈 计 算 假 阳性 、 假 阴性 ) 
common mistakes in (普通 错误 ) 
conditional (条 件 ) 
《同时 参见 “主观 概率 ”) 


probability histograms (概率 直方 图 ) 


product mixes 〈 产 品 组 合 ) 


Q 
Quantitative (定量 ) 
Constraints 《约束 条 件 ) 
Errors (误差 ) 
linking of pairs (数据 相关 ) 
making goals andbeliefs〈 制 定 目 标 ， 确 立信 念 
relationships (关系 ) 
relations in RDBMS (相关 数据 库 中 的 关系 ) 


theory (理论 ) 





querying (查询 》 
defined (已 确定 ) 
linear model object in RR 中 的 线性 模型 对 象 ) 
SQL 

question mark (? ) (R 中 的 问号 ) 

R 

R 
charting tools in 〈 绘 图 工具 ) 
cloud function 《cloud 函 数 ) 


command prompt (指令 提示 ) 


commands 〈 指 令 ) 
corO 
edit() 
getwd() 
head() 
helpO 
hist() 
jitter() 
library() 
Im0) 
order() 
plotO 
read.csv() 
save.image() 
sd() 
source() 
sub() 
summary() 


uniquel() 


write.csv() 
XxyplotQ) 
community of users 《用 户 社 区 ) 
defaults (默认 值 ) 
described 《描述 ) 
dotchart function in 〈《dotchart 函 数 ) 
histograms in 〈 直 方 图 ) 
installing and running (安装 与 运行 ) 
pipe character in 《| 字符) 
regular expression searches in (正则 表达 式 搜索 ) 
scatterplot arrays in 〈 散 点 图 集合 ) 
r〈correlation coefficient) 〈 相 关系 数 r) 
=RANDO (Excel/OpenOffice 公 式 ) 
randomized controlled experiments (随机 控制 实验 ) 
Randomness 随机) 
Randomness Exposed Interview〔( 随 机 访谈 ) 
random surveys (随机 调查 ) 
rationality 〈 理 性 ) 
raw data《〈 原 始 数据 ) 


disassembling (分 解 ) 


evaluating (评估 ) 
flowchart for cleaning (整理 流程 图 ) 
previsualize final data set (最 终 数 据 外 观 ) 
using delimiter to split data (使 用 分 隔 符 分 隔 数 据 ) 
using Excel nested searches 〈 使 用 Excel 舱 套 搜 索 ) 
using Excel text formulas (使 用 Excel 文 本 公式 ) 
using R regular expression searches (使 用 R 正 则 表达 式 搜索 ) 
using R to eliminate duplicates in〔 使 用 R 消 除 重 复数 据 ) 
RDBMS (关系 数据 库 管理 系统 ) 
read.csv() (CR 指令 ) 
Ready Bake Code 〈 预 编 代 码 ) 
calculater in R〔 在 R 中 计算 r) 
generate a scatterplot in R( 在 R 中 生成 散 点 图 ) 
recommendations〈 建 议 ， 参 见 “ 客 户 报告 ”) 
regression 《回归 ) 
balancing explanation and prediction in 平衡 解释 与 预测 ) 
and chance error( 机 会 误差 ) 
correlation coefficient(r) and (相关 系数 Ir) 


Data Analysis for Public Policy(《 公 共 政 策 数据 分 析 》“【〔 塔 夫 特 
将 ) ) 


Linear (线性 ) 


linear correlation and (线性 相关 ) 
nonlinear regression 〈 非 线性 回归 ) 
origin of name (名 字 来 源 ) 
overview 《概述 ) 
polynomial (多 项 式 ) 
and R.M.S. error( 均 方 根 误差 ) 
and segmentation (分 区 ) 
regression equations (回归 方程 ) 
regression lines (回归 线 ) 
regular expression searches 《正则 表达 式 搜索 ) 


relational ”database management system (相关 数据 库 管理 系统 
RDBMS) 


relational databases (关系 数据 库 ) 
replicability 〈 重 复 性 ) 
reports to clients〈 给 客户 的 报告 ) 
examples of 〈 实 例 ) 
guidelines for writing (撰写 指 丙 ) 
using graphics (使 用 图 形 ) 
representative samples 〈 典 型 抽样 ) 
residual distribution 〈 残 差分 布 ) 


residuals 〈 残 差 ， 参 见 “ 机 会 误差 >) 


residual standard error〈 残 差 标 准 差 ， 参 见 “ 鬼 方 根 误 差 ”) 

=RIGHTO (Excel/OpenOffice 公 式 ) 

rise (高 ) 

Root Mean Squared (R.M.S.) error( 均 方 根 误差 ) 
compared to standard deviation( 与 标准 偏差 进行 比较 ) 
defined (已 确定 》 
formula for (公式 ) 
improving prediction with (改进 预测 ) 

R 
regression and 《回归 ) 
rules of thumb 〈 经 验 ) 


run ( 边 长 ) 


Sampling 〈 抽 样 ) 

Satisficing (满意 法 ) 

save.image()(R 指 令 ) 

scant data( 数 据 匮乏 ) 

scatterplots 〈 散 点 图 ) 
3D 


creating from spreadsheets in R《〈 在 R 中 用 电子 表格 创建 ) 


drawing lines for prediction in 〈 绘 制 预测 线 ) 
Vs. histograms 〈 直 方 图 ) 
lattices (arrays) of 〈 网 格 〈 数 组 ) ) 
magnet chart( 数 据点 图 ) 
overview (概述) 
regression equation and (回归 方程 ) 
regression lines in (回归 线 ) 

sd()(R 指 令 ) 

segmentation (分 区 ) 

segments (分 区 ) 

self-evaluations 《上 自 评 ) 

sigma (0， 参 见 “ 均 方 根 误差 ”) 

slope《〈 和 斜率 ) 

Solver 

Sorting (排序 ) 

source() (RR 指令 ) 

splitting data 〈 拆 分 数据 ) 

spread of outcomes 《结果 分 布 ) 

spreadsheets (电子 数据 表 ) 


charting tools (绘图 工具 ) 


linked (关联 》 
provided by clients (来 自 客户 ) 
(同时 参见 Excel/OpenOffice) 
SQL〔 结 构 化 查询 语言 ) 
standard deviation( 标 准 偏差 ) 
calculating the (计算 ) 


defined (已 确定 ) 





and R.M.S. error calculation( 均 方 根 误差 计算 ) 
and standard units (标准 单位 ) 
=STDEV 

standard units (标准 单位 ) 

statistical models (统计 模型 ) 

=STDEV() (Excel/OpenOffice 公 式 ) 


stereotypes as heuristics (固定 模式 ， 启 发 式 ) 





strip，defined (区 间 ， 己 确定 ) 
Structured Query Language (结构 化 查询 语言 SQL) 
subO (CR 指令 ) 
subjective probabilities 〈 主 观 概率 ) 
charting (绘图 ) 


defined (已 确定 ) 


describing with error ranges 〈 描 述 误差 范围 ) 
overcompensation in (过 度 补 偿 ) 
overview (概述 ) 


quantifying (量化 》 





revising using Bayes' rule 〈 使 用 贝 叶 斯 规则 进行 修正 ) 
strengths and weaknesses of 〈 优 点 和 缺点 ) 

subsets of data (数据 子 集 ) 

=SUBSTITUTEO (Excel/OpenOffice) 

=SUMIF() (Excel/OpenOffice 公 式 ) 

summary() (R 指 令 ) 

summary data〈 汇 总 数据 ) 

surprise information 〈 惊 人 的 信息 ) 


surveys 《调查 ) 


tag clouds (标签 云 ) 

Test Drive (“一 试 壬 手 ”) 
Using Excel for histograms 〈 用 Excel 绘 制 直 方 图 ) 
Using R to get R.M.S. error〈 用 R 计 算 均 方 根 误差 ) 
Using Solver (使 用 Solver) 


tests of significance (显著 性 检验 ) 


口 ) 


theory《〈 理 论 ， 参 见 " 心 智 模型 ) 

thinking with data( 用 数据 思考 ) 

tilde (~) 

ToolPak (Excel) 

Transformations (变形 ) 

=TRIM() (Excel/OpenOffice 公 式 ) 

Troubleshooting (处 理 问 题 ) 
activating Analysis ToolPak (激活 Analysis ToolPak) 
Data Analysis button missing (数据 分 析 按 钮 不 出 现 ) 


gaps in Excel/OpenOffice histograms (Excel/OpenOf-fice 直 方 图 缺 


histogram not in chart format 〈 非 图 形 格式 直方 图 ) 
read.csv() (RR 指令) 
Solver utility not on menu《〈 荣 单 中 不 见 Solver 功 能 
true negatives《〈 真 阴性 ) 
true positives ( 真 阳性 ) 


Tufte，Edward (爱德华 : 塔 夫 特 ) 





two variable comparisons (两 种 变量 比较 ) 


ultra-specified problems 〈 超 规范 问题 ) 


uncertainty 〈 不 确定 因素 ) 
uniqueO 〈R 指 令 ) 
Up Close 细节 放 大 ) 
conditional probability notation (条 件 概率 记 法 ) 
confounding( 泥 杂 ) 
correlation (相关 ) 
histograms 《直方 图 ) 
your data needs (数据 需要 ...... ) 


your regular expression (正则 表达 式 ) 


V 
=VALUE() (Excel/OpenOffice 公 式 ) 
Variables (变量 ) 
Decision (决策 ) 
Dependent (应 变 ) 
Independent( 自 变 ) 
Linked (相关 ) 
Multiple (多 个 ) 
Two《〈 两 个 ) 
variation，internal (内 部 偏差 ) 


vertical bar (|) 


in Bayes' rule《〈 贝 叶 斯 规则 ) 
in R commands 〈R 命 令 ) 
Visual Basic for Applications (VBA) 
Visualizations (图 形 ) 
Beautiful Evidence ( 《可靠 的 证 据 》【〔 塔 夫 特 车)〉) 
causal diagrams (因果 关系 图 ) 
data art( 数 据 艺 术 ) 
examples of poor 〈 不 合格 实例 ) 
fast and frugal trees〈 快 省 树 ) 
making the right comparisons (正确 比较 ) 
multi-panel lattice (多 面板 网 格 图 ) 
multivariate (多 变量 ) 
overview 《概述 ) 
in reports (报告 ) 
software for( 软件) 
(同时 参见 “直方 图 *”、“ 散 点 图 ”) 
W 
Watchit! (小 心 ! ) 


always keep an eye on your model assumptions〔 千 万 对 模型 假设 保 
持 戒 心 ) 


always make comparisons explicit( 千 万 要 进行 明确 比较 ) 





does your regression make sense? 【回归线 有 意义 吗 ? ) 
way off on probabilities (概率 错觉 ) 

websites 《网 站 ) 
to download R〔 下 载 R) 


Edward Tufte (爱德华 : 塔 夫 特 ) 





Head First〈 深 入 浅 出 ) 

tag clouds (标签 云 ) 
whole numbers (整数 ) 
wildcard search (通配符 搜索 ) 


write.csv(O) 〈R 指 令 ) 


Xyplot(O (CR 指令 ) 


y-axis intercept (Y 轴 截 距 ) 


如 果 你 不 知道 读 什 么 书 ， 


就 关注 这 个 微 信 号 。 





微 信 公众 号 名 称 ， 幸福 的 味道 
加 小 编 微 信 一 起 读书 


小 编 微 信号 : 2338856113 


【幸福 的 味道 】 忆 提供 200 个 不 同类 型 的 书 单 


1、 


2、 


3、 


历届 节 盾 文学 交 获 奖 作 品 
每 年 豆 汰 ， 当 当 ， 亚 蕊 进 年 度 图 书 销售 排行 榜 


25 岁 前 一 定 要 读 的 25 本 书 





、 有 生 之 年 ， 你 一 定 要 看 的 25 部 外 国 纯 文学 名 著 
、 有 生 之 年 ， 你 一 定 要 看 的 20 部 中 国 现 当 代 名 著 
、 美国 亚马逊 编辑 推荐 的 一 生 必 读书 单 100 本 

、 30 个 领域 30 本 不 容错 过 的 入 门 书 





8、 这 20 本 书 ， 是 各 领域 的 襄 峰 之 作 

9、 这 7 本 书 ， 教 你 如 何 高 效 读书 

10、 80 万 书 虫 力 荐 的 “给 五 星 都 不 够 ”的 30 本 书 

关注 “幸福 的 味道 ” 微 信 公众 号 ， 即 可 查看 对 应 书 单 和 得 到 电子 书 
也 可 以 在 我 的 网 站 〈 周 读 ) www.ireadweek.com 自行 下 载 


备用 微 信 公众 号 : 一 种 思路 
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可 题 和 数据 分 解 为 更 小 的 组 
现在 S S| | 全 情 ; 





































































































